본문 바로가기
카테고리 없음

tesseract ocr 한국어 인식률 높이는 방법 (tessdata)

by 테크 톡톡 2021. 10. 7.

 

1. 일단 tesseract와 lang를 설치하자

brew install tesseract
brew install tesseract-lang

 

2. 한국어 인식률을 업그레이드 시키자

아래 링크에서 kor 검색해서 한국어 데이터를 다운로드 받은 후

https://github.com/tesseract-ocr/tessdata

 

tessdata 경로에 복붙하면 된다

opt/homebrew/share/tessdata

 

3. 결과물을 살펴보자

내 경우는 학습된 고용량 데이터(1.5mb)보다 기본 tesseract-lang에 들어가있는 (65kb)짜리가 더 인식률이 좋았다. 이미지마다 다르고 가공방식에 따라 다를 수 있다고 해서 설정값을 살펴 볼 예정이다. 예시처럼 표 형태 및 특수 문자가 포함되어 있는건 예외에 포함되는 편이고 일반적인 한글은 인식이 잘 되는것 같았다 (아래 링크 참조)

 

before after

 

 

 

참고 : https://www.youtube.com/watch?v=rNxMwtottmM