강의확인
전처리
- 자연어 처리 단계
- task설계
- 데이터수집
- 통계학적 분석
- 토큰갯수, 빈도 확인
- 전처리
- tagging
- tokenizing
- 모델설계
- 구현
- 평가
- 토큰화
- 주어진 데이터를 토큰이라는 단위로 분리
- 기준은 다르다.
실습
- 뉴스기사 크롤링
pip install newspaper3k
from newspaper import Article
Article(링크,언어)
- 유니코드단위로 분리
- 한국어
- 어절, 형태소, 음절, 자소, wordpiece
- 어절 단위
- 띄어쓰기 단위
- 형태소 단위
from konlpy.tag import Mecab
- 음절단위
- 한글자씩
- 자소단위
hgtk
모듈- 초성,중성,종성이 존재
- 종 -> ㅈ ㅗ ㅇ 으로 분리한다.
- wordPiece
피어세션
오늘 한일
- 데일리미션 진행
- 전처리
어떻게 했는지
- 특정 부분 추출
- 정규표현식 사용
좋았던 점
아쉬운 점
- 너무 미션에 대한 텍스트에 고정하여 구현한거 같아서 좀더 고민해도 적절한 모습이 떠오르지 않았다.
- 다양한 환경에 맞춰 변형해보고 싶지만, 어떤식으로 구현해야할지가 잘 모르겠다.