이번 프로젝트에서는 직접 관계 추출 task 데이터셋을 만들고, 만든 데이터셋을 모델에 적용하여 검증하는 것이 목표이다. ‘러시아-우크라이나 전쟁’ 주제를 중심으로, 아래와 같은 타임라인을 기준으로 진행했다.
김태일_T3063 | Tagtog 플랫폼 문장 업로드, RE 데이터 태깅 |
---|---|
문찬국_T3076 | Relation Map 작성, 가이드라인 FAQ 작성, RE 데이터 태깅 |
이재학_T3161 | 가이드라인 작성, RE 데이터 태깅 |
하성진_T3230 | 가이드라인 작성, RE 데이터 태깅, 지식그래프 구축 |
한나연_T3250 | IAA 계산, 모델 튜닝, RE 데이터 태깅 |
2022 러시아의 침공으로 발발한 러시아-우크라이나 전쟁을 중심으로 러시아와 우크라이나의 역사와 외교적인 관계를 포함하는 데이터이다. 코퍼스의 개수는 총 35개의 텍스트(40개 중 5개는 데이터 누락) 약 2100문장이다. 데이터는 부스트캠프 측으로부터 러시아-우크라이나 전쟁 주제에서 도출된 키워드들을 위키피디아(CC BY-SA 3.0) 문서 제목을 기반으로 수집해 제공받았다.
프로젝트의 결과물인 관계추출 데이터를 통해 인사이트를 얻을 수 있는 주제를 선정하고자 했다. 또한 러시아-우크라이나 전쟁 데이터로 정치적 관계, 국제 정세 등의 정보를 담는 ****지식 그래프로 확장될 수 있을 것이라고 생각하였다. 또한, 구축된 학습데이터를 기반으로 한 관계추출 모델은 추후 러시아-우크라이나 전쟁 중에 나오는 다양한 텍스트 데이터에서 관계추출을 통해 인사이트를 추출할 수 있을 것으로 기대된다.
기존 KLUE에서 정의된 relation으로 러시아-우크라이나 전쟁 데이터를 표현하기에 제약이 있어 데이터 전수 조사를 통해 사건(EVENT)
entity와 단체:적대_관계
, 단체:우호_관계
, 단체:자산
, 사건:장소
, 사건:날짜
relation을 추가했다. KLUE 기반 relation 5개, 추가한 relation 5개로 총 10개의 relation을 정의했다.
회색: KLUE 기반 relation, 흰색: 추가한 relation
사건(EVENT)
entity: 전쟁, 역사, 외교 등과 관련된 내용이 자주 등장했다.단체:적대_관계
,단체:우호_관계
: 전쟁이라는 주제 특성 상 나라, 기관간의 적대_관계, 우호_관계가 등장했다.단체:자산
: 국가의 병력, 자원, 시설, 무기 등이 자산으로 자주 등장했다.사건:장소
,사건:날짜
: 역사적 흐름이 데이터에 반영되어 특정 사건을 기준으로 날짜, 장소 관련 entity가 자주 등장했다.