[ Tesseract OCR ] 테서랙트 OCR - 오인식된 잘못된 문자를 개선하기 위한 학습 방법 - 1편

[ Tesseract OCR ] 테서랙트 OCR - 오인식된 잘못된 문자를 개선하기 위한 학습 방법 - 1편



1. 설치 진행 예제



2. TesseractOCR 실행

    > tesseract E:\test.PNG stdout -l eng




3. 오인식 글자 발생

    - 150˚C [정상]
    - 190˚C [오인식]


4. 이미지 파일 TIF 확장자 만들기

    - 그림판 으로 이미지 [열기]
    - 다른 이름으로 저장 [선택]
    - 파일 형식 변경 [저장]



5. TIF 파일 BOX 파일 만들기

    > tesseract.exe C:\Transform\eng.test.01.tif C:\Transform\eng.test.01 makebox
    - [테서랙트] [이미지 위치] [박스 위치] [명령어]




6. 카우복서 다운로드




7. 카우복서 실행





8. Open Tesseract box file

    - 만든 box 파일 [열기]



9. CowBoxer 사용

    - 오 인식 글자 수정
    - 박스 영역 틀린 부분 수정
    - Save the box file [저장]




10. Box 파일 확인

    - box 파일 메모장 [실행]
    - 메모장 내용 [확인]




11. Train 사용할 LSTMF 파일 만들기

    > tesseract C:\Transform\eng.test.01.tif C:\Transform\eng.test.01 -l eng --psm 13 lstm.train
    > [Tesseract] [TIF 위치] [BOX 위치] [-l LANG 언어] [--psm N]



--psm N

레이아웃 분석의 하위 집합만 실행하고 특정 형태의 이미지를 가정하도록 Tesseract를 설정합니다. N 에 대한 옵션 은 다음과 같습니다.

0 = 방향 및 스크립트 감지(OSD) 전용.
1 = OSD를 사용한 자동 페이지 분할.
2 = 자동 페이지 분할, OSD 또는 OCR 없음. (구현되지 않음)
3 = 완전 자동 페이지 분할(OSD 없음). (기본)
4 = 가변 크기의 단일 텍스트 열을 가정합니다.
5 = 수직으로 정렬된 텍스트의 단일 균일 블록을 가정합니다.
6 = 단일 텍스트 블록을 가정합니다.
7 = 이미지를 단일 텍스트 줄로 취급합니다.
8 = 이미지를 한 단어로 취급합니다.
9 = 이미지를 원 안의 한 단어로 취급합니다.
10 = 이미지를 단일 문자로 취급합니다.
11 = 희소 텍스트. 특정 순서 없이 가능한 한 많은 텍스트를 찾습니다.
12 = OSD가 있는 희소 텍스트.
13 = 원시 라인. 단일 텍스트 줄로 취급하고, Tesseract 전용 해킹 우회.


댓글