강의확인

전처리

  • 자연어 처리 단계
    • task설계
    • 데이터수집
    • 통계학적 분석
      • 토큰갯수, 빈도 확인
    • 전처리
    • tagging
    • tokenizing
    • 모델설계
    • 구현
    • 평가
  • 토큰화
    • 주어진 데이터를 토큰이라는 단위로 분리
    • 기준은 다르다.

실습

  • 뉴스기사 크롤링
    • pip install newspaper3k
    • from newspaper import Article
      • Article(링크,언어)
  • 유니코드단위로 분리
  • 한국어
    • 어절, 형태소, 음절, 자소, wordpiece
    • 어절 단위
      • 띄어쓰기 단위
    • 형태소 단위
      • from konlpy.tag import Mecab
    • 음절단위
      • 한글자씩
    • 자소단위
      • hgtk모듈
      • 초성,중성,종성이 존재
      • 종 -> ㅈ ㅗ ㅇ 으로 분리한다.
    • wordPiece

피어세션


오늘 한일

  • 데일리미션 진행
    • 전처리

어떻게 했는지

  • 특정 부분 추출
  • 정규표현식 사용

좋았던 점

아쉬운 점

  • 너무 미션에 대한 텍스트에 고정하여 구현한거 같아서 좀더 고민해도 적절한 모습이 떠오르지 않았다.
  • 다양한 환경에 맞춰 변형해보고 싶지만, 어떤식으로 구현해야할지가 잘 모르겠다.