cleanUrl: "/table-data-based-sentence-generation"
floatFirstTOC: right
# title:
# description:
(1) 특정 도메인과 관련된 데이터들이 주로 구축되었는데 농구와 관련된 Rotowire(Wiseman 외, 2017) 데이터 세트, 생물학과 관련된 KBGen(Banik 외, 2013) Wikibio(Lebret 외, 2016) 데이터 세트. 식당 예약 등과 관련된 E2E(Novikova 외, 2016, 2017)등이 그 예이다. (2) 표를 통한 문장 생성과 관련하여서는 Puduppully,R.(2018), Ankur Parikh 외(2020), Jonathan 외(2020) 등이 있다. 이 아티클에서는 그 중에서 ToTTo:A Controlled Table-To-Text Generation Dataset 에 대해서 다룬다.
위의 이미지에서 알 수 있는 것처럼 다양한 형태의 포맷에서 데이터를 추출하기 때문에 데이터 입력에도 많은 시간과 비용이 든다. 또한 표에서 꼭 필요한 정보를 추출하는 것과 이를 통해 추론 가능한 문장을 만들어 내는 것이 표 기반 문장 생성의 목표이면서 어려운 점이다.
국내에서는'국립국어원 인공 지능 언어 능력 평가' 시범 운영 과제 중 '표 기반 문장 생성' 과제가 있고 베이스라인 모델 및 학습과 평가를 위한 데이터 세트는 teddysum의
korean_T2T_baseline에서 확인할 수 있다. 2022년 기준 모델 성능은 다음표와 같다.