| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 머신러닝
- machinelearning
- 클러스터링
- DeepLearning
- 오버샘플링
- 2023공공빅데이터청년인재양성후기
- ADsP3과목
- DL
- decisiontree
- 공빅데
- k-means
- 공공빅데이터청년인재양성
- datascience
- 2023공공빅데이터청년인재양성
- 공공빅데이터청년인턴
- 데이터분석
- 데이터전처리
- 빅데이터
- NLP
- Keras
- SQL
- 2023공빅데
- Kaggle
- data
- ADSP
- 분석변수처리
- textmining
- ML
- 텍스트마이닝
- 공빅
- Today
- Total
목록전체 글 (114)
愛林
합격 때려박고 시작 5월 18일 실시된 제 1회 경영정보시각화능력 자격증 필기를 도전했다. 나는 일단 ADsP, 컴활과 같은 기본적인 컴퓨터 자격증이 있고, 데이터 분석을 해본 경험과 공부해본 경험이 있는 사람이었다..그래서 어느 정도 베이스가 있는 상태로 시작. 새로 신설된 자격증이라서 정보가 많이 없고, 그래서 원래 기출을 미친듯이 돌려야 하는 문제은행식 자격증 시험에 익숙해진 나는 좀 어떻게 공부해야할 지 막막했다. 1과목은 경영정보일반, 경영과 관련된 파트라서 제일 외우는 데 애먹었다.2,3과목은 데이터 분석 자격증 (ADsP나 SQLD, 빅분기 같은..)에 나오는 과목들과 매우매우 많이 겹친다. 하나라도 준비해봤으면 크게 어려움은 없을 것이라고 예상. 일단 대한상공회의소에서 가이드북과 예상문..
https://product.kyobobook.co.kr/detail/S000200678474 클린 코드의 기술 | Christian Mayer - 교보문고 클린 코드의 기술 | 실무 프로그래머로서 잠재력이 획기적으로 향상되는 방법 현실적으로 할 수 있는 행동과 코드 예제 소개흔히 우리는 이메일과 전화를 하면서 코딩하는 사람이 일을 잘한다 product.kyobobook.co.kr 제가 쓸 리뷰의 책은 클린 코드의 기술입니다. 깔끔한 코드는 개발자 본인에게도, 협업하는 팀원에게도 좋은 영향을 줍니다. 프로그래밍이라는 것은 혼자 할 수도 있지만, 보통은 팀 단위의 프로젝트로 진행하니까요. 해당 도서는 개발자들의 자기계발을 위해 영진북스에서 새로 나온 따끈따끈한 코딩 자기계발서입니다. 대표사진 삭제 사진 설..
원래는 일경험수련이 다 끝나고 적고 싶었던 글이지만, 일경험 수련장 후기는 일경험이 끝나고 적도록 하고, 이번 글에서는 2022 공공빅데이터분석 청년인재 양성 교육과 일경험수련, 이렇게 총 8개월을 해당 사업에 참여하면서 느낀 점들을 적어보고자 한다. 이 글을 적기 위해 슬공빅 카테고리의 글을 쭉 읽어보니, 이 때는 이랬지 하며 추억할 수 있어서 좋았다. 기록이 주는 기쁨이란 .. numpy 가 뭔지 pandas 가 뭔지 하나도 모르던 내가 6월부터(사전교육기간 포함) 지금까지 성장한 걸 보니 뿌듯하기도 하고 열심히 했구나 싶기도 하고 이 때 좀 더 이렇게 할 걸 아쉬움도 드는 것 같다. 아무튼 써보는 프로그램 참여 후기 교육기간동안의 글들 [1주차] https://wndofla123.tistory.co..
앞서 배운 seq2seq 모델로 기계 번역기를 구현해보자. 딥러닝을 통한 자연어 처리 입문 책을 보고 필사했다. 해당 책의 이 예제는 keras 의 개발자 프랑수아 숄레의 블로그의 게시물인 'sequence to sequence 10분만에 이해하기' 를 원본으로 하여 만들어졌다. https://blog.keras.io/a-ten-minute-introduction-to-sequence-to-sequence-learning-in-keras.html 실제 성능이 좋은 기계 번역기를 구현하기 위해서는 아주 방대한 데이터가 필요하다. 그러니 이번 실습에서는 seq2seq 를 가볍게 실습해보는 느낌으로 keras의 Functional API 를 사용하여 아주아주 간단한 기계 번역기를 구축한다. 기계 번역기를 훈련..
Encoder & Decoder (Sequence to Sequence) 앞에서 배웠던 RNN 을 이용하여 인코더, 디코더라는 모듈로 명명하고 이를 연결해서 쓸 수 있다. 이 인코더 - 디코더 구조는 보통 입력 문장과 출력 문장의 길이가 다를 때 사용한다. 번역기나 텍스트 요약에서 많이 사용된다. Sequence - to - sequence, seq2seq 시퀀스 투 시퀀스(Seq2seq) 는 입력된 시퀀스로부터 다른 도메인의 시퀀스를 출력하는 다양한 분야에서 사용되는 모델이다. 예를 들어 챗봇(Chatbot) 과 기계 번역(Machine Translation) 이 대표적인 예인데, 입력과 출력 시퀀스를 각각 질문과 대답으로 구성하면 챗봇으로 만들 수 있고, 입력 시퀀스와 출력 시퀀스를 각각 입력 문장과..
앞서서 2D 합성곱에 대해서 알아보았었다. [합성곱 신경망] https://wndofla123.tistory.com/112 [Python/DL] 합성곱 신경망 (Convolution Neural Network) :: CNN 합성곱 신경망 (Convolution Neural Network, CNN) 여러 딥러닝 모델들 중 특히나 이미지 처리에 성능이 좋은 다층 신경망이다. 인공신경망의 부흥기인 1995년에 LeCun과 Bengio가 CNN (Convolution Neural Network) 을 wndofla123.tistory.com 이미지 분류에는 2D 합성곱이 쓰이나, 자연어처리나 시계열 분석엔 1D CNN 이 많이 사용된다. 텍스트를 분석할 때 우리는 문장을 임베딩시켜 벡터로 만든 상태로 분석을 했다..
합성곱 신경망 (Convolution Neural Network, CNN) 여러 딥러닝 모델들 중 특히나 이미지 처리에 성능이 좋은 다층 신경망이다. 인공신경망의 부흥기인 1995년에 LeCun과 Bengio가 CNN (Convolution Neural Network) 을 발표했다. 이를 이용해서 문자 인식이나 음성 인식에는 아주 좋은 성능이 발휘되었지만, 기존 신경망이 가졌던 문제들이 해결되지 않은 시점이었기에 SVM 등의 알고리즘에 밀렸었다. 이후 딥러닝이라는 기술이 나오며 기존 인공신경망이 가졌던 문제들이 해결되며 CNN도 강력해졌다. 현재는 이미지 분류에서는 최강의 성능을 보이고 있으며 CNN 과 유사한 신경망들도 많이 개발되어 이 알고리즘의 활용성이 많이 높아진 상태이다. CNN 은 위의 사진의..
Sentence Piece 앞서 배운 서브워드 토크나이징을 위한 BPE 의 변형 알고리즘 중 하나이다. 구글에서 내놓은 알고리즘으로, BPE 알고리즘과 Unigram Language Model Tokenizer 를 구현한 SentencePiece를 Github에 공개했다. 실무에서 쓰기 좋다고 저자가 말했다 . NLP Community 에서 널리 채택되는 방법이다. [논문] https://arxiv.org/pdf/1808.06226.pdf [Github] https://github.com/google/sentencepiece Subward Tokenize 를 수행하기 위해서는 데이터에 단어 토큰화가 미리 진행되어 있어야 한다. 또한 이러한 알고리즘을 모든 언어에 적용하기도 쉽지가 않다. 그러나 이런 사전..
Subward Tokenizer 기계를 아무리 많이 학습시킨다한들, 세상에 있는 모든 단어들을 가르쳐 줄 순 없다. 이 단어들을 OOV(Out-Of-Vocabulary) 또는 UNK(Unkown Token) 이라고 표현한다. 이 경우, 모델링이 까다로워진다. 이 때 서브워드 분리(Subward Segmentation) 작업을 진행하면 하나의 단어가 더 작은 단위의 의미있는여러 서브워드들(예를 들면 Birthday = Birth + Day, 하늘색 = 하늘 + 색)의 조합으로 구성된 경우가 많기 때문에, 하나의 단어를 여러 서브워드로 분리해서 단어를 인코딩 및 임베딩하겠다는 의도를 가진 전처리 작업이다. 이를 통해 희귀단어나 신조어와 같은 문제를 해결할 수 있다. 실제로 언어의 특성에 따라서 영어나 한국어..
영진북스 서평단 이벤트에 당첨되어 해당 출판사에서 책을 제공받았습니다. IT 도서 출판사로 유명한 영진닷컴에서 서평 이벤트를 열길래 참여했는데 당첨됐습니다. 아마 이기적 으로 유명한 것으로 알고 있습니다. 컴활 자격증 딸 때 이기적을 썼던 기억이 나네요. 새 책임에도 불구하고 배송과정 문제인지 표지 위쪽부분이 크게 우그러져 왔습니다.. 슬펐지만 어쩔 수 없죠 .. 그래도 표지가 귀엽습니다. 목차는 위와 같습니다. 세부 목차까지 설명하고 있어 필요한 부분만 골라 찾아보기 수월할 것 같습니다. 해당 책은 PostgreSQL 을 사용합니다. 초보자들이 SQL을 처음 접함에도 불구하고 어렵지 않게 접근할 수 있게 도와주고, 이어서 실무에서도 사용할 수 있도록 SQL 기본기와 실제 데이터셋을 통한 연습이 ..