반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 빅데이터
- datascience
- DL
- decisiontree
- 분석변수처리
- 공빅
- machinelearning
- 2023공빅데
- ML
- 2023공공빅데이터청년인재양성
- 데이터분석
- 머신러닝
- Keras
- DeepLearning
- 오버샘플링
- textmining
- 텍스트마이닝
- 2023공공빅데이터청년인재양성후기
- 공공빅데이터청년인턴
- 공공빅데이터청년인재양성
- 공빅데
- SQL
- NLP
- 클러스터링
- 데이터전처리
- ADSP
- ADsP3과목
- Kaggle
- data
- k-means
Archives
- Today
- Total
목록sentencepiece (1)
愛林
[Python/NLP] 센텐스피스 (Sentence Piece)
Sentence Piece 앞서 배운 서브워드 토크나이징을 위한 BPE 의 변형 알고리즘 중 하나이다. 구글에서 내놓은 알고리즘으로, BPE 알고리즘과 Unigram Language Model Tokenizer 를 구현한 SentencePiece를 Github에 공개했다. 실무에서 쓰기 좋다고 저자가 말했다 . NLP Community 에서 널리 채택되는 방법이다. [논문] https://arxiv.org/pdf/1808.06226.pdf [Github] https://github.com/google/sentencepiece Subward Tokenize 를 수행하기 위해서는 데이터에 단어 토큰화가 미리 진행되어 있어야 한다. 또한 이러한 알고리즘을 모든 언어에 적용하기도 쉽지가 않다. 그러나 이런 사전..
Data Science/Text Mining, 자연어처리
2023. 2. 1. 15:00