cleanUrl: "/table-data-based-sentence-generation"
floatFirstTOC: right

표 데이터의 역할

표 데이터 역사

(1) 특정 도메인과 관련된 데이터들이 주로 구축되었는데 농구와 관련된 Rotowire(Wiseman 외, 2017) 데이터 세트, 생물학과 관련된 KBGen(Banik 외, 2013) Wikibio(Lebret 외, 2016) 데이터 세트. 식당 예약 등과 관련된 E2E(Novikova 외, 2016, 2017)등이 그 예이다. (2) 표를 통한 문장 생성과 관련하여서는 Puduppully,R.(2018), Ankur Parikh 외(2020), Jonathan 외(2020) 등이 있다. 이 아티클에서는 그 중에서 ToTTo:A Controlled Table-To-Text Generation Dataset 에 대해서 다룬다.

a tableau data visualization screen.png

ToTTo 에서 표 기반 문장 생성 데이터를 만든 프로세스

표.jpg

위의 이미지에서 알 수 있는 것처럼 다양한 형태의 포맷에서 데이터를 추출하기 때문에 데이터 입력에도 많은 시간과 비용이 든다. 또한 표에서 꼭 필요한 정보를 추출하는 것과 이를 통해 추론 가능한 문장을 만들어 내는 것이 표 기반 문장 생성의 목표이면서 어려운 점이다.

국내에서는'국립국어원 인공 지능 언어 능력 평가' 시범 운영 과제 중 '표 기반 문장 생성' 과제가 있고 베이스라인 모델 및 학습과 평가를 위한 데이터 세트는 teddysum의

korean_T2T_baseline에서 확인할 수 있다. 2022년 기준 모델 성능은 다음표와 같다.

Untitled

논의사항