일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- DeepLearning
- textmining
- 오버샘플링
- DL
- decisiontree
- 2023공빅데
- data
- ADsP3과목
- NLP
- ADSP
- 2023공공빅데이터청년인재양성후기
- ML
- k-means
- 2023공공빅데이터청년인재양성
- 공빅
- 공공빅데이터청년인재양성
- 공공빅데이터청년인턴
- 머신러닝
- 데이터분석
- Kaggle
- 공빅데
- 텍스트마이닝
- Keras
- datascience
- 데이터전처리
- SQL
- 빅데이터
- machinelearning
- 분석변수처리
- 클러스터링
- Today
- Total
愛林
2022 공공빅데이터분석 청년인재 양성(공공빅데이터 청년인턴) 프로젝트 후기 본문
짧다면 짧고, 길다면 길었던 공빅 교육이 끝났다.
사실 심화교육은 남아있어서 완전 끝은 아니지만 !
프로젝트와 오프라인 수업은 무사히 끝냈다.
그래서 쓰는
프로젝트 후기!
조는 그냥 권역별 반 안에서 제비뽑기로 뽑혔다.
그래도 전공자, 비전공자 정도는 나누어서 넣어주었으면 했는데 각 권역별 반도 그냥
이름순으로 넣고.. 이런 프로젝트 조도 그냥 제비뽑기로 해서 좀 잉?스러웠음. ㅋ
우리 반에는 전공자도 몇 명 없었는데, 나는 전공자가 없는 조에 배치되었다 ..!
사실 컴공 전공자분이 한 분 계시긴 했으나 데이터 분석 전공은 아니셨다.
너무 막막했음.. ㅠㅠ 전공자분이 있는 조가 너무 부러웠다. (데이터 분석 관련 전공자)
프로젝트명은
"데이터로 같이, 가치있게(With Value)! 데이톤십 해커톤 제5회"
실무형 프로젝트는 데이터로 같이, 가치 있게..!
데이터를 이용해서 생활 밀접형 사회 문제를 해결하는 것이었다.
주제를 넓게 잡아주셨으나, 그래서 더 주제를 정하기 힘들었다 ..ㅠㅠㅠ
주제가 신박하면 데이터가 없고 (우리가 이 경우였음.. 근데 주제가 신박했는 지도 잘 모르겠긴 하다)
데이터가 많으면 이미 다른 분들이 다 한 번씩 했던 주제 ㅠㅠ..ㅋㅋㅋ
한 달도 아니고 거의 3주정도 ? 주어진 것 같은데 ..
촉박하다면 촉박하고 널널하다면 꽤나 널널했던 것 같다.
왜냐면 하루종일 하기 때문 ..
2주 아닌 게 어디야 ..
근데 사실 이건 팀마다 달랐을 거라고 생각한다. 술술 잘 풀린다면 널널했을 것이고,
뭔가 잘 안 풀린 게 있었다면 너무너무 촉박한 시간이었을 것이다.
공공데이터로만 프로젝트를 진행해야했기 때문에 애초에 맘에 드는 데이터를 완벽하게
찾을 수는 없다.. ㅠㅠ 데이터가 다양하지도 않고..
평가는 이런 식으로 진행된다!
애초에 우리는 분석을 겨우 한 달 남짓 배운 사람들이다 ..
엄청나게 높은 퀄리티의 분석이 나올 수는 없다고 생각했다.
애초에 문과생들, 파이썬조차 한 번도 다루어보지 않은 비전공자들도 있어서
단기간에 뭔가 보여주기엔 어려운 구조라는 생각이 들었다.
우리 조는 거의 비전공자 군단이었기에 ...ㅠㅠ
기술에서 솔직히 점수를 많이 못 받을 거라고 생각했다.
분석 대부분은 어쩌다보니 내가 맡게되었다.
사실 다 같은 비전공자라 분석을 그냥 냅다 다 같이 시작했는데 결과물과 속도 면에서
미리 이렇게 글을 써놓고, 코드를 가지고 있었던 내가 잘 나왔던 것 같다.
이렇게 블로그를 써두고, 공부한 것을 남겨놓은 것이 큰 도움이 된 것 같다!
다들 기술블로그 하세요 !
기술 블로그 추천해주셨던 울 기술코치님 감사합니다 ..ㅎ
암튼 분석을 하고도 혹시나 결과가 이상할까봐 조원들끼리 R로도 돌려보고,
여러가지 방법을 써보려고 애썼던 것 같다.
그치만 분석 결과도 나쁘지 않았고, 분석 자체에 문제점은 없었다 !
우리가 원하는 거랑 다른 방향으로 했거나, 잘못된 분석 방법을 사용한 건 아닌 것 같다.
분석 쪽 공부를 나름 ? 열심히 했기도 했고 ..!
(내가 뭘 썼는 지도 제대로 알지 못했던 랜덤포레스트 제외.. 진짜 멍청한 나)
그치만 ..
우린 입지분석을 진행했는데, 변수를 모으고 거르고 PCA로 차원축소시켜서
군집화 시킨 다음 특정 시의 행정구까지는 잘 도출해냈으나..
이제 행정구 내의 입지를 상세화시키는 과정에서 가중치를 쓰기로 했는데 ..
우리가 가중치를 선정하는 과정에서 어떻게 해야 할 지를 모르겠어서 ..
(사실 생각해보니 가중치를 쓰지 않고 다르게 분석하는 것이 좋았을 수도 있을 것 같다.)
그냥 상관관계 분석의 결과와 랜덤포레스트 변수 중요도 분석을 기반으로 해서 (사실 원래 이러면 안 되는 것 같음)
대충 가중치를 넣은 것이 설득력이 떨어진 이유였던 것 같다.
사실 하면서도 조금 주관성이 너무 짙지 않나? 라는 생각은 들었지만 걍 어캐든 해보자! 식으로 가버렸다 하핫
근데 진짜 우린 이게 최선이었다고 생각함.
그리고 ... 원래 랜덤포레스트가 그렇게 중요한 것이 아니었는데 , 변수 중요도가 갑자기 진짜로 좀
필요해져버린 상황이 와버려서 ... 공부해보지도 않은 랜덤포레스트로 꾸역꾸역 급하게 돌리다보니...
분석을 맡은 나조차 멍청하게 제대로 알아보지 않고 써버려서 발표 때 질문답변을 멍청하게 했다.
회귀인지 분류인지도 헷갈리다니 ..ㅋㅋ
다시는 이런 멍청한 실수 하지 말아야지.
그래도!!
조원분들이 힘써주셔서, 발표도 멋지게 하고, ppt도 깔끔하고 멋지게 결과물이 나왔다 !

뭐 별로 크게 분석한 것도 없고, 분석 모델들의 난이도도 그렇게 어려운 모델이 아니었다.
당연함. 머신러닝 배운 적 없기 때문.
심화교육 1차 2차가 있었는데 2차에 군집분석이나 시계열분석이 나오더라고 ..?
그냥 한 번에 심화교육 다 풀어줬으면 보면서 프로젝트 할 때 좀 공부하고 했을건데
단계적으로 풀어준 ...ㅠ 그게 아쉬웠다.
플젝 끝나고 심화교육으로 머신러닝 공부해보니 우리 프로젝트에서도 쓸 수 있었을 법한 모델들이 많더라고 ..ㅠㅠ
기본적인 아이디어나 참고할 만한 모델들도 있었을 것 같구..
그래도 프로젝트 진행하면서 내가 배웠던 여러 분석 방법들과 Python, Q-GIS 등을 조금 더
능숙하게 다룰 수 있게 됐다는 게 좋았다 !
아 그리고
발표는 잘하는 분 무조건 시키는 것이 좋다 .. 나는 사실 다른 조 발표 본 적이 없어서
체감하진 못하지만 ? 저번 기수들이나 코치님들이 입을 모아서 발표를 잘 해야 점수를 잘 받을 수 있다고 하셨다.
질문은 ... 분석에 관한 질문만 들어왔고, 분석을 맡은 내가 답변했는데 멸망해서 할 말이 없음.
근데 멸망한 답변 치고는 프로젝트 점수가 좋았다 !
다들 멸망했던걸까 ?
아마 ppt, 결과보고서 산출물이 꽤나 좋았었고, 질문 답변같은 부분은 딱히
크게 점수에 들어가지 않기 때문인 것 같다.
글구 우리 조 발표자분께서 발표를 잘 하셨다!
발표 순서같은 건 그냥 지역 내에서 반끼리 모여서 가위바위보나.. 뽑기 같은 걸로 뽑았다 !
심사위원분들은 총 3분 들어오시고, 모두 데이터 분석 전문가라고 하셨다.
질문은 거의 다 분석에 대한 질문만 하니, 분석에 대한 질문을 세세하게 준비하는 것이 좋을 것 같다.
꿀팁
해본 사람으로서 꿀팁을 주자면 ...
제발 이렇게 뭐라도 남겨놓으시면 정말 도움이 된다...!!! (기술블로그나 공부블로그!)
교육자료 그 많은 거 하나하나 다 찾아볼 수 있을 것 같나요 절대 불가능.
공부하는 셈 치고 이렇게 남겨두면 바로바로 블로그에서 검색해서 필요한 거 꺼내쓸 수 있음
(검색 가능한 노트같은 느낌, 군집분석,PCA 등등)
그리고 Kaggle 이나 뭐 구글에만 검색해도 나오는 그런 프로젝트들이나,
공빅카페에도 정말 좋은 자료 많이 올려주시는 코치님들 많다 ! 보고 참조해서 분석 꼭 해보세요 !
이게 진짜 도움이 되는 것 같다. 나는 분석 다 끝나고 이런 분석 해봐서 EDA 를 잘못 했다는 걸 깨달음 ..ㅋㅋ아
내가 한 게 제대로 된 EDA가 아니더라고 ...?ㅎㅎ
그리고 주제의 신박함이 중요한 것 같다!
분석할 때(전처리 할 때) 무조건 Python 쓰려고 안 해도 된다.
우리도 데이터 전처리같은 건 Excel 을 사용했는데 , 엑셀이 훨씬 더 편하고 !
비전공자들이 사용하기에도 좋다.
(물론 배운 걸 쓰면 좋겠지만 일단 결과물이 나와야 하니까요..)
굳이 matplotlib 쓰면서 꾸역꾸역 그래프 안 그려도 엑셀에서 쉽게 그래프 만들 수 있다..ㅎㅎ
물론 본격적인 분석(군집이나, 시계열같은 것들)은 Python 을 써야겠지만!
그리고.. 생각보다 프로젝트 점수는 후하게 주는 것 같다 ! (우리가 잘한건가?)
오픈채팅 봤을 때도 프로젝트 점수가 후하지 않냐는 말이 보였다.
근데 그럴 법 한 게 다들 분석전문가가 아니기 때문에..?
분석의 난이도나, 분석의 완성도라던지.. 배운 것도 한정적이고..
그리고 분석툴이나 그런 것도 우리가 배운 것들 한에서만 사용이 가능했기에 그런 것 같다.
전공자가 있다면 조금 더 완성도가 있을 것이고, 아니라면 뭐... 다들 비슷할 것 같다.
(뭔 플젝점수 400점 넘는다는 말도 있던데 근데 그건 그럴 수 있나 싶다 ? 만점이 400점인데 ..)
근데 사실 다른 조 발표는 본 적이 없어서 비교대상이 없다. 아직 우수작도 선정하지 않은 것 같고 ..
https://www.youtube.com/watch?v=0glcYl4zkv0
그리고 이건 작년 (2021년) 프로젝트 결과 발표회였는데,
질문답변이나 이런 부분들 참고하면 좋을 것 같다!
아무튼 프로젝트 끝나고 느낀점은,
이 기회를 통해서 프로젝트를 거의 처음으로(학교에서 한 조별과제 제외) 해본 것 같아 새로웠고,
좋은 사람들 만나서 많은 걸 배울 수 있어서 좋았다.
교육장 대부분 사람들이 나보다 나이가 많았는데 , 그래서 그런지 배울 게 많았던 것 같다.
(소통방식이나, 그런 것들)
내가 배웠던 여러가지 분석들을 직접 우리가 구한 데이터에 적용시켜서 분석을 해봤다는 것 자체도
의미가 깊었고, 여러 분석들에 대한 이해도도 올라갔다.
어느 상황에 어떤 분석을 어떻게 써야할 지 대충 감을 잡을 수 있게 된 것 같다. (내가 써 본 분석 하에)
암튼 역시 사람은 실무다.. 배운 것을 적용해보는 게 중요하다는 생각이 들었다.
아쉬웠던 점은,
분석은 같이 배웠는데, 누구는 배운 걸 써먹고, 누구는 그냥 분석과 상관없는 ppt, 보고서만 쓰게 될 수도 있다.
물론 이건 역량과 시간 문제겠지만, 다른 조도 마찬가지인 사람들이 꽤나 있었다.
성향 따라 다를듯, 누군가는 개꿀이라고 생각할 것이고, 누군가는 아쉬워 할 수도 있을 것 같다.
또 심화교육 ..ㅠㅠ 진심 다시 생각해도 아쉽네
한 번에 다 풀어주시지 흑흑 심화교육을 들었으면 더 정교한 프로젝트 결과물이 나올 수 있었을 것 같은데
그러지 못해서 아쉬웠다.
나머지는 딱히 없는듯...? 프로젝트 경험이라는 게 나한테는 너무도 매력적으로 느껴졌기 때문에 ㅎㅎ..
아무튼.. 프로젝트 마무리하느라
고생했다 우리조 .. ㅠㅠ
지금 총점도 나오고, 기관도 배치가 끝났으니!
기관 배치 후기도 써야지 ~
'Data Science > 슬기로운 공빅생활' 카테고리의 다른 글
2022 공공 빅데이터분석 청년인재 양성(공공빅데이터 청년인턴) 프로그램 참여 후기 (2) | 2023.02.08 |
---|---|
2022 공공빅데이터분석 청년인재 양성(공공빅데이터 청년인턴) 기관배치 후기 (2) | 2022.09.05 |
2022 공공빅데이터분석 청년인재 양성(공공빅데이터 청년인턴) 6주차 / 통합 지필평가 (2) | 2022.07.29 |
2022 공공빅데이터분석 청년인재 양성(공공빅데이터 청년인턴) 5주차 (2) | 2022.07.24 |
2022 공공빅데이터분석 청년인재 양성(공공빅데이터 청년인턴) 4주차 (2) | 2022.07.16 |