일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Kaggle
- 공공빅데이터청년인재양성
- 데이터전처리
- NLP
- machinelearning
- 데이터분석
- 2023공공빅데이터청년인재양성
- textmining
- 공공빅데이터청년인턴
- ADsP3과목
- 2023공공빅데이터청년인재양성후기
- ADSP
- Keras
- data
- 2023공빅데
- datascience
- 클러스터링
- 머신러닝
- 공빅
- 공빅데
- 분석변수처리
- DeepLearning
- SQL
- 빅데이터
- DL
- k-means
- 오버샘플링
- 텍스트마이닝
- decisiontree
- ML
- Today
- Total
목록텍스트마이닝 (5)
愛林

이전에는 단어 빈도 분석법을 알아보았다. 단어 빈도 분석은 문서 내의 대체적인 내용은 짐작할 수 있지만, 여러 문서에 포함된 구체적인 내용은 알기가 어렵다. 또한, 눈, 벌 같은 동음 이의어가 쓰여진 경우 그 의미를 찾기는 더 어려워진다. 우리는 전반적으로 앞뒤의 내용을 듣고 내용을 지레짐작할 수 있으나, 컴퓨터는 바보라서 이를 파악할 수 없다. 그래서 사용하는 토픽 모델링은 컴퓨터가 주제를 파악할 수 있도록 도와준다. 이번에는 토픽모델링에 대해 알아보자. https://wndofla123.tistory.com/72 [Text Mining] 텍스트 마이닝 - 카운트 기반 문서 표현 거의 한 달만에 해보는 텍스트 마이닝 .. 카운트 기반의 문서 표현 컴퓨터는 바보다. 그래서 바로바로 글자를 읽지 못해서, ..

거의 한 달만에 해보는 텍스트 마이닝 .. 카운트 기반의 문서 표현 컴퓨터는 바보다. 그래서 바로바로 글자를 읽지 못해서, 우리가 숫자로 이루어진 벡터로 바꾸어주어야 안다. 그래서 이전에는 텍스트 전처리를 배웠다. 이렇게 숫자로 이루어진 벡터로 바꾸어주었음에도 불구하고, 우리의 컴퓨터는 맥락을 이해하지 못한다. 전체 글의 맥락을 파악하지 못한다. 전설적, 어휘적, 다변적 사랑이라는 책이 있다. 개념 예술가인 캐런 라이머의 1996년 책인데, 연애 소설 한 편을 골라서 전체 텍스트를 알파벳 순으로 재배열한 책이다. 알파벳 순으로 단어들이 나열된 345쪽짜리 긴 목록이다. X 로 시작하는 단어가 없었기에 25장으로 이루어져있는 책이다. 왜 이런 책을 썼는 지는 모른다. 항상 예술가는 어려운 것 같다. 그러나..

재밌는 워드 클라우드 만들기 ! 단어 빈도 분석 진행 후 그래프랑 워드 클라우드 만들기를 해보자. Intro 문서는 사용된 단어들의 빈도들만 파악해도 많은 정보를 얻을 수 있다. 이를 통해서 이 글이 중요시하는 것이 무엇인 지에 대해 파악할 수 있다. 단어 빈도 분석은 내용을 파악하고자 하는 문서의 양이 많아 부담스러울 때, 문서 또는 문서 뭉치들 간의 내용을 비교하고 싶을 때 사용하면 편리하다. 단어 빈도 분석 실습 NLTK 는 나온 지 오래되어 저작권이 만료된 영어소설들(약 6만여개) 를 무료로 제공하는 구텐베르그 프로젝트 (Project Gutenberg) 말뭉치(corpus)을 가지고 있다. 이를 사용해서 우리는 루이스 캐럴의 "이상한 나라의 앨리스" 의 단어 빈도를 분석해볼 것이다. import..

이전에는 텍스트 마이닝의 토큰화, 불용어 제거, 어간추출, 표제어 추출을 알아보았다. https://wndofla123.tistory.com/50 텍스트 마이닝(Text Mining) - 텍스트 전처리 - 불용어 제거, 어간추출(Stemming), 표제어추출(Lemmatization 저번시간에는 텍스트 전처리의 토큰화(Tokenize) 에 대해 알아보았다. https://wndofla123.tistory.com/49 텍스트 마이닝(TEXT MINING) - 텍스트 전처리 - 토큰화(Tokenize) 텍스트마이닝 시작! 텍스트 마이닝 (Te.. wndofla123.tistory.com 품사 태깅 품사란, 명사,대명사,수사,조사,동사,형용사,관형사,부사,감탄사와 같이 공통된 성질을 가진 낱말끼리 모아 놓은 ..

텍스트마이닝 시작! 텍스트 마이닝 (Text Mining) 텍스트 마이닝이란, 텍스트(비정형데이터) 를 정형화된 데이터로 변환하는 기법이다. 이 과정에서 자연어 처리 기법을 사용한다. 문서를 일정한 길이 (sparse or dense) 의 벡터로 변환한다. (임베딩 하는 과정) 변환된 벡터에 통계적 패턴 분석, 머신 러닝(딥러닝) 기법을 적용한다. 관심이 있는 대상 혹은 사건에 대한 정보를 얻거나 결과를 예측할 수 있다. 우리는 텍스트 마이닝을 ' 자연어 처리 기법을 통해 텍스트를 정형화된 데이터로 변환하고, 머신러닝 기법을 적용하여 우리가 관심이 있는 어떤 대상 및 사건에 대한 정보를 얻거나 예측하고자 하는 방법론 ' 이라고 정의하고 갔다. (이해에 도움이 되기 위한 주관적 해석) 텍스트를 정형화시키는..