과제 1: Data Preprocessing & Tokenization

전체 코드는 깃허브 참고 → 링크

1. 파이썬 기본 코드를 이용한 영어 텍스트 토큰화 및 전처리

1-A) tokenizer 구현

토큰화(tokenization)란? 주어진 입력 데이터를 자연어처리 모델이 인식할 수 있는 단위로 변환해주는 방법이다.
단어 단위 토큰화(word tokenization)란? 자연어처리 모델이 단어 단위로 입력 텍스트를 인식한다. 영어의 경우 대부분 공백을 기준으로 단어가 정의되기 때문에 .split()을 사용해 쉽게 단어 토큰화를 구현할 수 있다. 영어에서 공백을 기준으로 수행하는 단어 단위 토큰화를 **공백 단위 토큰화(space tokenization)**이라고 한다.

<aside> 💡 토큰화기 구현 설명 공백으로 토큰을 구분하되 . , ! ? 문장 부호는 별개의 토큰으로 처리되어야 합니다. 영문에서 Apostrophe에 해당하는 ' 는 두가지 경우에 대해 처리해야합니다. 1. not의 준말인 n't은 하나의 토큰으로 처리되어야 합니다: don't ==> do n't 2. 다른 Apostrophe 용법은 뒤의 글자들을 붙여서 처리합니다: 's 'm 're 등등 그 외 다른 문장 부호는 고려하지 않으며, 작은 따옴표는 모두 Apostrophe로 처리합니다. 모든 토큰은 소문자로 변환되어야 합나다.

힌트: 정규표현식을 안다면 re 라이브러리를 사용해 보세요!

예시: 'I don't like Jenifer's work.'
==> ['i', 'do', 'n\\'t', 'like', 'jenifer', '\\'s', 'work', '.']

</aside>

방법1) append를 사용해 무지성 for문으로 구현

문장부호/ n’t 케이스/ he’s I’m 케이스/ you’re I’ve 케이스 총 4개의 경우로 나누어 토큰화를 수행한다. 세 번째와 네 번째 케이스는 서로 자리수가 달라 나누었다.
파이썬의 typing 모듈은 작성한 대로 변수의 데이터 타입을 강제하지 않아 output: List[int] 라고 작성해도 output= [1, 2, 3]으로 값을 넣을 수 있다.

from typing import List

def tokenize(sentence: str) -> List[str]:
    """ 
    Arguments:
    sentence -- 토큰화할 영문 문장
    
    Return:
    tokens -- 토큰화된 토큰 리스트
    """

    ### YOUR CODE HERE 
    tokens: List[str] = list()
    tokens = sentence.lower().split()
    res = []
    punc = ['.', ',', '!', '?']

    # 방법1 - append 사용
    for token in tokens:
        if token[-1] in punc:
            res.append(token[:-1])
            res.append(token[-1])
        elif token[-3:] == "n't":
            res.append(token[:-3])
            res.append(token[-3:])
        elif len(token)>=2 and token[-2] == "'":
            # 's 'm
            res.append(token[:-2])
            res.append(token[-2:])
        elif len(token)>=3 and token[-3] == "'":
            # 're 've
            res.append(token[:-3])
            res.append(token[-3:])
        else:
            res.append(token)
    # ### END YOUR CODE

    return res

방법2) extend를 사용해 무지성 for문으로 구현

값이 더해진 새로운 리스트를 반환하는 append()와 달리 extend()는 주소 값이 변하지 않고 유지된다.
extend를 사용하면 2줄씩이었던 코드를 1줄로 줄일 수 있다.

def tokenize2(sentence: str) -> List[str]:
    tokens: List[str] = list()
    tokens = sentence.lower().split()
    res = []
    punc = ['.', ',', '!', '?']
    
    # 방법2 - extend 사용
    for token in tokens:
        if token[-1] in punc:
            res.extend([token[:-1], token[-1]])
        elif token[-3:] == "n't":
            res.extend([token[:-3], token[-3:]])
        elif len(token)>=2 and token[-2] == "'":
            # 's 'm
            res.extend([token[:-2], token[-2:]])
        elif len(token)>=3 and token[-3] == "'":
            # 're 've
            res.extend([token[:-3], token[-3:]])
        else:
            res.append(token)

    return res

방법3) 정규표현식 re 사용

띄어쓰기도 하나의 토큰으로 처리해 공백도 split()한 결과에 들어가는 것을 알 수 있다.
정규표현식은 필요할 때 항상 구글링해서 복붙한 것을 그대로 사용해 개념을 잘 모르겠다.. 아래 사이트에 들어가면 직접 작성한 정규 표현식 결과가 어떻게 되는지 확인할 수 있다.