프로젝트 배경
본 프로젝트는 판례, 심결례, 조서 등 다양한 법률 문서에 특화된 OCR(광학 문자 인식) 모델 개발을 목표로 진행되었습니다. 기존 상용 OCR 솔루션이 존재하지만, 법률 문서의 높은 보안 요구 사항으로 인해 자체 인하우스 모델 구축이 필요했습니다.
또한, OCR로 추출한 텍스트 데이터를 사전 정의된 데이터베이스 형식으로 저장하는 것도 주요 목표였습니다. 예를 들어, 판례의 경우 “주문”, “이유” 등 각 항목을 분리하여 저장함으로써, 단순한 텍스트 추출을 넘어 즉시 활용 가능한 형태로 가공하는 것을 목표로 하였습니다.
*본 스핀 카지노 내 이미지는 이해를 돕기 위해 가상으로 제작되었습니다.
스핀 카지노 상세
1. 포트폴리오 소개: 법률 문서에 특화된 OCR(광학 문자 인식) 모델 개발
2. 작업 범위: OCR 모델 개발, 데이터 처리 자동화
3. 주요 업무:
1) 법률 문서 특화 OCR 모델 개발
- 한국어 법률 문서에서 99% 이상의 인식 정확도를 제공하는 OCR 솔루션 구축
2) 다양한 입력 형식 지원
- PDF, 이미지(JPEG, PNG) 파일을 자동으로 텍스트 데이터로 변환
3) 법률 문서 항목별 데이터 정리
- OCR 처리된 텍스트를 “주문”, “이유” 등 법률 문서 형식에 맞춰 자동 분류 및 정리
4) OCR 좌표 기반 데이터 가공
- 텍스트 내 핵심 문구와 좌표 정보를 활용하여 문서 구조에 맞게 저장 및 활용 가능하도록 가공