일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- NLP
- data
- 텍스트마이닝
- Kaggle
- 빅데이터
- 2023공공빅데이터청년인재양성후기
- 공빅
- DeepLearning
- 머신러닝
- 클러스터링
- 2023공빅데
- 데이터전처리
- 공빅데
- SQL
- decisiontree
- ADSP
- textmining
- 공공빅데이터청년인턴
- 오버샘플링
- 2023공공빅데이터청년인재양성
- machinelearning
- 데이터분석
- datascience
- k-means
- ADsP3과목
- ML
- DL
- 분석변수처리
- Keras
- 공공빅데이터청년인재양성
- Today
- Total
목록textmining (3)
愛林

이전에는 단어 빈도 분석법을 알아보았다. 단어 빈도 분석은 문서 내의 대체적인 내용은 짐작할 수 있지만, 여러 문서에 포함된 구체적인 내용은 알기가 어렵다. 또한, 눈, 벌 같은 동음 이의어가 쓰여진 경우 그 의미를 찾기는 더 어려워진다. 우리는 전반적으로 앞뒤의 내용을 듣고 내용을 지레짐작할 수 있으나, 컴퓨터는 바보라서 이를 파악할 수 없다. 그래서 사용하는 토픽 모델링은 컴퓨터가 주제를 파악할 수 있도록 도와준다. 이번에는 토픽모델링에 대해 알아보자. https://wndofla123.tistory.com/72 [Text Mining] 텍스트 마이닝 - 카운트 기반 문서 표현 거의 한 달만에 해보는 텍스트 마이닝 .. 카운트 기반의 문서 표현 컴퓨터는 바보다. 그래서 바로바로 글자를 읽지 못해서, ..

거의 한 달만에 해보는 텍스트 마이닝 .. 카운트 기반의 문서 표현 컴퓨터는 바보다. 그래서 바로바로 글자를 읽지 못해서, 우리가 숫자로 이루어진 벡터로 바꾸어주어야 안다. 그래서 이전에는 텍스트 전처리를 배웠다. 이렇게 숫자로 이루어진 벡터로 바꾸어주었음에도 불구하고, 우리의 컴퓨터는 맥락을 이해하지 못한다. 전체 글의 맥락을 파악하지 못한다. 전설적, 어휘적, 다변적 사랑이라는 책이 있다. 개념 예술가인 캐런 라이머의 1996년 책인데, 연애 소설 한 편을 골라서 전체 텍스트를 알파벳 순으로 재배열한 책이다. 알파벳 순으로 단어들이 나열된 345쪽짜리 긴 목록이다. X 로 시작하는 단어가 없었기에 25장으로 이루어져있는 책이다. 왜 이런 책을 썼는 지는 모른다. 항상 예술가는 어려운 것 같다. 그러나..

이전에는 텍스트 마이닝의 토큰화, 불용어 제거, 어간추출, 표제어 추출을 알아보았다. https://wndofla123.tistory.com/50 텍스트 마이닝(Text Mining) - 텍스트 전처리 - 불용어 제거, 어간추출(Stemming), 표제어추출(Lemmatization 저번시간에는 텍스트 전처리의 토큰화(Tokenize) 에 대해 알아보았다. https://wndofla123.tistory.com/49 텍스트 마이닝(TEXT MINING) - 텍스트 전처리 - 토큰화(Tokenize) 텍스트마이닝 시작! 텍스트 마이닝 (Te.. wndofla123.tistory.com 품사 태깅 품사란, 명사,대명사,수사,조사,동사,형용사,관형사,부사,감탄사와 같이 공통된 성질을 가진 낱말끼리 모아 놓은 ..