[ Tesseract OCR ] 테서랙트 OCR - 오인식된 잘못된 문자를 개선하기 위한 학습 방법 - 1편
1. 설치 진행 예제
2. TesseractOCR 실행
> tesseract E:\test.PNG stdout -l eng
3. 오인식 글자 발생
- 150˚C [정상]
- 190˚C [오인식]
4. 이미지 파일 TIF 확장자 만들기
- 그림판 으로 이미지 [열기]
- 다른 이름으로 저장 [선택]
- 파일 형식 변경 [저장]
> tesseract.exe C:\Transform\eng.test.01.tif C:\Transform\eng.test.01 makebox
- [테서랙트] [이미지 위치] [박스 위치] [명령어]
- [테서랙트] [이미지 위치] [박스 위치] [명령어]
6. 카우복서 다운로드
7. 카우복서 실행
8. Open Tesseract box file
- 오 인식 글자 수정
- 박스 영역 틀린 부분 수정
- Save the box file [저장]
10. Box 파일 확인
- box 파일 메모장 [실행]
- 메모장 내용 [확인]
> tesseract C:\Transform\eng.test.01.tif C:\Transform\eng.test.01 -l eng --psm 13 lstm.train
> [Tesseract] [TIF 위치] [BOX 위치] [-l LANG 언어] [--psm N]
--psm N
레이아웃 분석의 하위 집합만 실행하고 특정 형태의 이미지를 가정하도록 Tesseract를 설정합니다. N 에 대한 옵션 은 다음과 같습니다.
0 = 방향 및 스크립트 감지(OSD) 전용. 1 = OSD를 사용한 자동 페이지 분할. 2 = 자동 페이지 분할, OSD 또는 OCR 없음. (구현되지 않음) 3 = 완전 자동 페이지 분할(OSD 없음). (기본) 4 = 가변 크기의 단일 텍스트 열을 가정합니다. 5 = 수직으로 정렬된 텍스트의 단일 균일 블록을 가정합니다. 6 = 단일 텍스트 블록을 가정합니다. 7 = 이미지를 단일 텍스트 줄로 취급합니다. 8 = 이미지를 한 단어로 취급합니다. 9 = 이미지를 원 안의 한 단어로 취급합니다. 10 = 이미지를 단일 문자로 취급합니다. 11 = 희소 텍스트. 특정 순서 없이 가능한 한 많은 텍스트를 찾습니다. 12 = OSD가 있는 희소 텍스트. 13 = 원시 라인. 단일 텍스트 줄로 취급하고, Tesseract 전용 해킹 우회.
댓글
댓글 쓰기