1. 프로젝트 개요

이번 프로젝트에서는 직접 관계 추출 task 데이터셋을 만들고, 만든 데이터셋을 모델에 적용하여 검증하는 것이 목표이다. ‘러시아-우크라이나 전쟁’ 주제를 중심으로, 아래와 같은 타임라인을 기준으로 진행했다.

Untitled

2. 팀 구성 및 역할

김태일_T3063 Tagtog 플랫폼 문장 업로드, RE 데이터 태깅
문찬국_T3076 Relation Map 작성, 가이드라인 FAQ 작성, RE 데이터 태깅
이재학_T3161 가이드라인 작성, RE 데이터 태깅
하성진_T3230 가이드라인 작성, RE 데이터 태깅, 지식그래프 구축
한나연_T3250 IAA 계산, 모델 튜닝, RE 데이터 태깅

3. 데이터 개요

3.1 데이터 설명

2022 러시아의 침공으로 발발한 러시아-우크라이나 전쟁을 중심으로 러시아와 우크라이나의 역사와 외교적인 관계를 포함하는 데이터이다. 코퍼스의 개수는 총 35개의 텍스트(40개 중 5개는 데이터 누락) 약 2100문장이다. 데이터는 부스트캠프 측으로부터 러시아-우크라이나 전쟁 주제에서 도출된 키워드들을 위키피디아(CC BY-SA 3.0) 문서 제목을 기반으로 수집해 제공받았다.

3.2 데이터 선정 이유

프로젝트의 결과물인 관계추출 데이터를 통해 인사이트를 얻을 수 있는 주제를 선정하고자 했다. 또한 러시아-우크라이나 전쟁 데이터로 정치적 관계, 국제 정세 등의 정보를 담는 ****지식 그래프로 확장될 수 있을 것이라고 생각하였다. 또한, 구축된 학습데이터를 기반으로 한 관계추출 모델은 추후 러시아-우크라이나 전쟁 중에 나오는 다양한 텍스트 데이터에서 관계추출을 통해 인사이트를 추출할 수 있을 것으로 기대된다.

4. RE 데이터 제작 결과물

4.1 Relation Map

[Relation Map]

기존 KLUE에서 정의된 relation으로 러시아-우크라이나 전쟁 데이터를 표현하기에 제약이 있어 데이터 전수 조사를 통해 사건(EVENT)entity와 단체:적대_관계, 단체:우호_관계, 단체:자산, 사건:장소, 사건:날짜 relation을 추가했다. KLUE 기반 relation 5개, 추가한 relation 5개로 총 10개의 relation을 정의했다.

회색: KLUE 기반 relation, 흰색: 추가한 relation

회색: KLUE 기반 relation, 흰색: 추가한 relation

사건(EVENT) entity: 전쟁, 역사, 외교 등과 관련된 내용이 자주 등장했다. 단체:적대_관계, 단체:우호_관계: 전쟁이라는 주제 특성 상 나라, 기관간의 적대_관계, 우호_관계가 등장했다. 단체:자산: 국가의 병력, 자원, 시설, 무기 등이 자산으로 자주 등장했다. 사건:장소, 사건:날짜: 역사적 흐름이 데이터에 반영되어 특정 사건을 기준으로 날짜, 장소 관련 entity가 자주 등장했다.

4.2 Guideline