'sentencepiece' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록sentencepiece (1)

愛林

[Python/NLP] 센텐스피스 (Sentence Piece)

Sentence Piece 앞서 배운 서브워드 토크나이징을 위한 BPE 의 변형 알고리즘 중 하나이다. 구글에서 내놓은 알고리즘으로, BPE 알고리즘과 Unigram Language Model Tokenizer 를 구현한 SentencePiece를 Github에 공개했다. 실무에서 쓰기 좋다고 저자가 말했다 . NLP Community 에서 널리 채택되는 방법이다. [논문] https://arxiv.org/pdf/1808.06226.pdf [Github] https://github.com/google/sentencepiece Subward Tokenize 를 수행하기 위해서는 데이터에 단어 토큰화가 미리 진행되어 있어야 한다. 또한 이러한 알고리즘을 모든 언어에 적용하기도 쉽지가 않다. 그러나 이런 사전..

Data Science/Text Mining, 자연어처리 2023. 2. 1. 15:00

이전 Prev 1 Next 다음

목록sentencepiece (1)

愛林

티스토리툴바