cleanUrl: "/KoreanCorpora"
floatFirstTOC: right
이번 블로그는 데이터 큐레이션에 대한 내용을 다룬다. 데이터 큐레이션은 데이터 구축과 생성뿐만 아니라 데이터의 활용 가치를 높이는 모든 활동을 포함한다.
(이미지출처) Microsoft Designer - Stunning designs in a flash 를 사용하여 자동 생성
‣ 를 통해서 1차 한국어 데이터 큐레이션을 진행하던 시기인 2019에는 구문분석 데이터와 유사문장, 병렬 코퍼스 등이 다수였다.
<그림1> 데이터의 일반적 사용과 제공 기관
이는 다음 이미지와 같이 형태소나 문장을 분석하여 그 특성을 추출하여 필요한 정보를 처리하는 데이터가 주로 구축되었기 때문이다.
<그림2> 텍스트 데이터의 분석 방법과 자연어 처리 과제 세분화
2020년부터 현재(2023년)까지는 혐오 표현과 함께 다양한 주제(기타 주제에 포함됨)의 데이터가 증가하였다. 전반적으로 의미 분류와 관련된 데이터가 연구와 산업에서 많이 사용된 것을 확인할 수 있다.