1. 일단 tesseract와 lang를 설치하자
brew install tesseract
brew install tesseract-lang
2. 한국어 인식률을 업그레이드 시키자
아래 링크에서 kor 검색해서 한국어 데이터를 다운로드 받은 후
https://github.com/tesseract-ocr/tessdata
tessdata 경로에 복붙하면 된다
opt/homebrew/share/tessdata
3. 결과물을 살펴보자
내 경우는 학습된 고용량 데이터(1.5mb)보다 기본 tesseract-lang에 들어가있는 (65kb)짜리가 더 인식률이 좋았다. 이미지마다 다르고 가공방식에 따라 다를 수 있다고 해서 설정값을 살펴 볼 예정이다. 예시처럼 표 형태 및 특수 문자가 포함되어 있는건 예외에 포함되는 편이고 일반적인 한글은 인식이 잘 되는것 같았다 (아래 링크 참조)
before | after |
![]() |
![]() |
참고 : https://www.youtube.com/watch?v=rNxMwtottmM