일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 데이터전처리
- 오버샘플링
- ML
- 머신러닝
- textmining
- 공빅
- 2023공빅데
- NLP
- k-means
- DeepLearning
- 클러스터링
- decisiontree
- Kaggle
- 빅데이터
- ADsP3과목
- datascience
- 2023공공빅데이터청년인재양성
- 공공빅데이터청년인재양성
- 공빅데
- data
- 공공빅데이터청년인턴
- ADSP
- 분석변수처리
- 2023공공빅데이터청년인재양성후기
- 데이터분석
- DL
- 텍스트마이닝
- SQL
- Keras
- machinelearning
- Today
- Total
목록NLP (4)
愛林

앞서 배운 seq2seq 모델로 기계 번역기를 구현해보자. 딥러닝을 통한 자연어 처리 입문 책을 보고 필사했다. 해당 책의 이 예제는 keras 의 개발자 프랑수아 숄레의 블로그의 게시물인 'sequence to sequence 10분만에 이해하기' 를 원본으로 하여 만들어졌다. https://blog.keras.io/a-ten-minute-introduction-to-sequence-to-sequence-learning-in-keras.html 실제 성능이 좋은 기계 번역기를 구현하기 위해서는 아주 방대한 데이터가 필요하다. 그러니 이번 실습에서는 seq2seq 를 가볍게 실습해보는 느낌으로 keras의 Functional API 를 사용하여 아주아주 간단한 기계 번역기를 구축한다. 기계 번역기를 훈련..

앞서서 2D 합성곱에 대해서 알아보았었다. [합성곱 신경망] https://wndofla123.tistory.com/112 [Python/DL] 합성곱 신경망 (Convolution Neural Network) :: CNN 합성곱 신경망 (Convolution Neural Network, CNN) 여러 딥러닝 모델들 중 특히나 이미지 처리에 성능이 좋은 다층 신경망이다. 인공신경망의 부흥기인 1995년에 LeCun과 Bengio가 CNN (Convolution Neural Network) 을 wndofla123.tistory.com 이미지 분류에는 2D 합성곱이 쓰이나, 자연어처리나 시계열 분석엔 1D CNN 이 많이 사용된다. 텍스트를 분석할 때 우리는 문장을 임베딩시켜 벡터로 만든 상태로 분석을 했다..
Sentence Piece 앞서 배운 서브워드 토크나이징을 위한 BPE 의 변형 알고리즘 중 하나이다. 구글에서 내놓은 알고리즘으로, BPE 알고리즘과 Unigram Language Model Tokenizer 를 구현한 SentencePiece를 Github에 공개했다. 실무에서 쓰기 좋다고 저자가 말했다 . NLP Community 에서 널리 채택되는 방법이다. [논문] https://arxiv.org/pdf/1808.06226.pdf [Github] https://github.com/google/sentencepiece Subward Tokenize 를 수행하기 위해서는 데이터에 단어 토큰화가 미리 진행되어 있어야 한다. 또한 이러한 알고리즘을 모든 언어에 적용하기도 쉽지가 않다. 그러나 이런 사전..

NLP 를 이용한 스팸 메일 분류 NLP 를 이용해서 스팸 메일을 분류해보자. kaggle 에서 제공하는 스팸 메일 데이터를 이용했다. https://www.kaggle.com/datasets/uciml/sms-spam-collection-dataset SMS Spam Collection Dataset Collection of SMS messages tagged as spam or legitimate www.kaggle.com 여기서 csv파일을 다운받거나 urllib 를 사용해서 다운받으면 된다. Enviroment Python 3.9.12 Tensorflow 2.9.3 numpy 1.21.0 pandas 1.4.4 Tensorflow.keras 2.9.0 에서 문제없이 실행 가능했습니다. Librar..