한국어 말뭉치 구축(1)

cleanUrl: "/KoreanCorpora"
floatFirstTOC: right
# title:한국어 말뭉치 구축
# description: 한국어 말뭉치 소개합니다.

이번 블로그는 데이터 큐레이션에 대한 내용을 다룬다. 데이터 큐레이션은 데이터 구축과 생성뿐만 아니라 데이터의 활용 가치를 높이는 모든 활동을 포함한다.

Korean Corpus Library (1).png

(이미지출처) Microsoft Designer - Stunning designs in a flash 를 사용하여 자동 생성

1. 말뭉치 구축의 변화 양상

‣ 를 통해서 1차 한국어 데이터 큐레이션을 진행하던 시기인 2019에는 구문분석 데이터와 유사문장, 병렬 코퍼스 등이 다수였다.

                                     <그림1> 데이터의 일반적 사용과 제공 기관

이는 다음 이미지와 같이 형태소나 문장을 분석하여 그 특성을 추출하여 필요한 정보를 처리하는 데이터가 주로 구축되었기 때문이다.

                                               <그림2> 텍스트 데이터의 분석 방법과 자연어 처리 과제 세분화

2020년부터 현재(2023년)까지는 혐오 표현과 함께 다양한 주제(기타 주제에 포함됨)의 데이터가 증가하였다. 전반적으로 의미 분류와 관련된 데이터가 연구와 산업에서 많이 사용된 것을 확인할 수 있다.