Share

เทคโนโลยี OCR คืออะไร และมีขั้นตอนการทำงานอย่างไร?

เทคโนโลยี OCR หรือ Optical Character Recognition มีแนวโน้มที่จะเข้ามาเปลี่ยนวิธีการทำธุรกิจในยุคปัจจุบัน โดยนำกระบวนการทำงานแบบอัตโนมัติมาใช้ เพื่อช่วยเพิ่มประสิทธิภาพในการทำธุรกิจ เป็นเทคโนโลยีที่ใช้ระบบคอมพิวเตอร์เข้ามาช่วยในการเปลี่ยนลายมือ หรือเอกสารสแกนลายมือ รวมถึงเอกสารการพิมพ์ให้อยู่ในรูปการเข้ารหัสตัวอักษรที่ระบบคอมพิวเตอร์สามารถเข้าใจได้ หรือคิดถึงเทคโนโลยี OCR ว่าเป็นกระบวนการในการเปลี่ยนข้อมูลที่อยู่ในรูปแบบอนาล็อกมาเป็นข้อมูลในรูปแบบดิจิทัล เป็นอีกหนึ่งเทคโนโลยีทุ่นแรงที่ช่วยประหยัดเวลาในการจัดการข้อมูล และเอกสารได้มากยิ่งขึ้น

 นอกเหนือใช้กันในภาคธุรกิจแล้ว เทคโนโลยี OCR ยังอยู่ในชีวิตประจำวัน ไม่ว่าจะเป็น Google Street views และ Dropbox ที่ใช้ OCR ในการแปลจากรูปให้เป็นตัวหนังสือแบบเรียลไทม์

ในบทความนี้ AI GEN จะพามาทำความรู้จักกับเทคโนโลยี OCR รวมถึงขั้นตอนวิธีการทำงานของ OCR กันอย่างลึกซึ้งกันมากยิ่งขึ้น

เทคโนโลยี OCR คืออะไร

เทคโนโลยี OCR คือกระบวนการในการเปลี่ยนข้อความที่อยู่ในรูป ให้อยู่ในรูปแบบของข้อความ หรือกล่าวได้ว่าเป็นการสร้างข้อความ หรือไฟล์เอกสารจากไฟล์สแกนเอกสารทั้งในรูปแบบการพิมพ์ หรือลายมือ 
ภาพประกอบ : Shutterstock

OCR หรือ Optical Character Recognition คือกระบวนการในการเปลี่ยนข้อความที่อยู่ในรูป ให้อยู่ในรูปแบบของข้อความ หรือกล่าวได้ว่าเป็นการสร้างข้อความ หรือไฟล์เอกสารจากไฟล์สแกนเอกสารทั้งในรูปแบบการพิมพ์ หรือลายมือ 

เพื่อให้เห็นภาพมากยิ่งขึ้น ลองนึกถึงโค้ด หรือ Serial number ที่มีทั้งตัวเลข และตัวหนังสือที่เราอยากเก็บข้อมูลให้อยู่ในรูปแบบดิจิทัล เทคโนโลยี OCR จะช่วยให้เราสามารถเก็บข้อมูลเหล่านี้ให้อยู่ในรูปแบบของดิจิทัลได้ โดยใช้เทคโนโลยีในหลากหลายรูปแบบ ในการประมวลผลข้อมูลในรูปถ่ายนั้นๆ ดึงข้อมูลตัวอักษรออกมา และทำการจำแนกตัวหนังสือเหล่านั้น

สิ่งที่ OCR ไม่สามารถทำได้ คือการอ่านวัตถุ หรือสิ่งของที่เราต้องสแกน OCR ทำหน้าที่เพียงแค่อ่านตัวหนังสือที่เราตั้งใจจะเปลี่ยนให้อยู่ในรูปแบบของดิจิทัลเท่านั้น ตัวอย่างเช่น ถ้าเราทำการสแกนคำศัพท์ เทคโนโลยี OCR จะทำการอ่าน และเรียนรู้ตัวหนังสือเหล่านั้น แต่เทคโนโลยี OCR ไม่ได้รู้ความหมายของคำคำนั้น

ขั้นตอนการทำงานของเทคโนโลยี OCR

หากสมมติว่าชีวิตเป็นเรื่องง่าย และเรามีเพียงตัวอักษรเดียว คืออักษรตัว A และถึงแม้จะเป็นอย่างนั้นจริงๆ เทคโนโลยี OCR ยังคงต้องเจอความท้าทายในเรื่องนี้ เพราะแต่ละคนเขียนอักษร A ในรูปแบบที่แตกต่างกันออกไป แม้กระทั้งตัวพิมพ์อักษร A ในหนังสือแต่ละเล่มก็ยังใช้ฟอนท์กันคนละแบบ 

โดยทั่วไปแล้ว มี 2 วิธีที่สามารถแก้ไขปัญหานี้ได้ ไม่ว่าจะเป็นการจำแนกตัวหนังสือ หรืออักขระในแบบภาพรวม หรือที่เรียกว่า Pattern Recognition หรือจะเป็นวิธีการตรวจจับในแต่ละบรรทัด และลายเส้นของตัวหนังสือที่เรียกว่า Feature Detection 

1) Pattern Recognition 

ถ้าทุกคนเขียนตัวอักษร A เหมือนกันหมด คอมพิวเตอร์จะสามารถจำแนกตัวอักษร A ได้ง่ายมากยิ่งขึ้น แค่ทำการเปรียบเทียบรูปที่ถูกแสกนเข้ามา กับตัวหนังสือ A ที่เก็บเอาไว้ในระบบ และถ้าทั้งสองอย่างแมทช์กัน ทำให้สามารถระบุได้ว่าตัวอักษรนี้คือตัวอักษร A

แต่เราจะทำให้ทุกคนเขียนตัวหนังสือเหมือนกันได้อย่างไร? ย้อนกลับไปเมื่อปี 1960 มีการพัฒนาฟอนท์รูปแบบพิเศษขึ้นมา เรียกว่า OCR-A ที่ใช้ในการทำธุรกรรมทางการเงิน เช่น เช็ค ทุกตัวอักษรจะมีความกว้างเท่ากัน และออกแบบลายเส้นของตัวอักษรมาเป็นอย่างดีเพื่อสามารถแยกความแตกต่างจากตัวอักษรทั่วไปได้ง่ายขึ้น เช็คที่ถูกพิมพ์ออกมาจะใช้ฟอนท์พิเศษอันนี้ทั้งหมด และโปรแกรม OCR ได้ถูกออกแบบมาเพื่อจำแนกตัวอักษรประเภทนี้เช่นกัน โดยออกแบบฟอนท์ให้เป็นรูปแบบมาตรฐาน ทำให้โปรแกรม OCR สามารถจำแนกตัวอักษรได้โดยง่าย แต่ปัญหาที่สำคัญอย่างหนึ่งคือ ตัวอักษรส่วนใหญ่ในโลกไม่ได้ใช้ฟอนท์ OCR-A รวมถึงลายมือเขียนเช่นกัน ในขั้นตอนถัดไปจึงเป็นเรื่องของการสอนให้โปรแกรม OCR สามารถจำแนกฟอนท์ตัวอักษรทั่วไปได้มากขึ้น เช่น ฟอนท์ Time, Helvetica, Courier และอื่นๆ นั่นหมายถึงว่าโปรแกรม OCR จะสามารถจำแนกฟอนท์ตัวอักษรได้มากขึ้น แต่ยังไม่สามารถการันตีได้ว่าระบบ OCR จะสามารถจำแนกได้ทุกฟอนท์ที่มีการส่งไป

รูปแบบฟอนท์ OCR-A
(ภาพประกอบจาก explainthatstuff)

2) Feature Detection

หรือเรียกกันว่า Feature extraction หรืออีกชื่อเรียกว่า Intelligent Character Recognition (ICR) วิธีการนี้เป็นวิธีที่สามารถจำแนกตัวหนังสือได้มากกว่า สมมติว่าเราเป็นโปรแกรม OCR ที่ต้องจำแนกตัวหนังสือที่เป็นลายมือที่มีความหลากหลาย เราจะเลือกตัวหนังสือ A ออกมาได้อย่างไร ถึงแม้ว่ามีการเขียนที่แตกต่างกันเพียงเล็กน้อย วิธีการนี้ใช้กฏการทำงานดังต่อไปนี้ ถ้าเราเห็นเส้นตรงเฉียงสองเส้นที่มาประกบกันตรงกลางด้านบนสุด และมีเส้นแนวนอนตรงกลางระหว่างเส้นตรงเฉียงสองเส้น โดยการใช้กฏการทำงานนี้ จะสามารถจำแนกได้ว่าตัวอักษรนี้คือตักอักษร A ไม่ว่าจะเป็นฟอนท์รูปแบบไหน แทนที่จะใช้วิธีการจำแนกแพทเทิร์นตัวอักษร A แบบสมบูรณ์ ใช้เป็นวิธีในการจำแนกแต่ละองค์ประกอบของตัวหนังสือ (เส้นด้านข้าง, เส้นขีดคร่อม และอื่นๆ) แทน โปรแกรม OCR ส่วนใหญ่ที่จำแนกตัวหนังสือแบบ Omnifont (โปรแกรมจำแนกตัวหนังสือแบบพิมพ์ในหลากหลายฟอนท์) ใช้วิธีการทำงานแบบ Feature Detection มากกว่าที่จะใช้วิธี Pattern Recognition และโปรแกรม OCR บางประเภทใช้วิธี Neuron Network (โปรแกรมคอมพิวเตอร์ที่ใช้วิธีดึงแพทเทิร์นแบบอัตโนมัติเหมือนวิธีการทำงานของสมอง)

ภาพประกอบจาก explainthatstuff

เพื่อให้สามารถจัดการกับเอกสารได้หลากหลายประเภทมากยิ่งขึ้น ผู้ให้บริการเทคโนโลยี OCR เริ่มมีการพัฒนาระบบที่มีความเฉพาะเจาะจงมากยิ่งขึ้น เช่นระบบที่สามารถประมวลผลรูปภาพแบบพิเศษ เพื่อเพิ่มความแม่นยำในการจำแนกอักขระ หรือตัวอักษร รวมถึงมีการรวบรวมหลายเทคนิคไว้ด้วยกัน ตัวอย่างเช่น  ใช้กฏเกณฑ์ในการทำธุรกิจบางอย่าง มาตรฐานคำศัพท์ หรือข้อมูลที่ประกอบด้วยรูปภาพสี เหล่านี้เป็นการใช้กลยุทธ์การรวมหลายๆเทคนิค Optimization เข้าไว้ด้วยกัน ที่เรียกว่า “application-oriented OCR” or “customized OCR” มักจะประยุกต์ใช้กับการอ่านข้อมูลนามบัตร ใบเสร็จ/ใบกำกับภาษี รวมถึงบัตรประจำตัวประชาชน 

ส่งท้ายบทความ…

ถือได้ว่าเทคโนโลยี OCR สามารถประยุกต์ใช้ได้ทั้งในชีวิตประจำวัน และในภาคธุรกิจ เป็นอีกหนึ่งเทคโนโลยีที่ช่วยอำนวยความสะดวกและทุ่นแรงในการทำงาน เหมือนมีผู้ช่วยในการจำแนกตัวหนังสือ และประเภทของเอกสาร รวมถึงการแปลภาษาให้อีกด้วย ช่วยเพิ่มประสิทธิภาพในการทำงาน และลดความผิดพลาดของการกรอกข้อมูล รวมถึงทำให้มนุษย์มีเวลาที่จะสร้างสรรค์ผลงานด้านอื่นๆได้มากยิ่งขึ้นอีกด้วย

AI GEN Live chat