[내일배움캠프] 3일 차 - 아티클 스터디, 직무 세션
아티클 스터디
아티클: 데이터 리터러시(Data Literacy)를 올리는 방법
https://yozm.wishket.com/magazine/detail/1632/
[아티클 요약 및 주요 내용]
1. 데이터 리터러시란?
데이터 리터러시란 '데이터를 활용해 문제를 해결할 수 있는 능력'이다.
협업팀이 데이터 팀에 데이터를 요청할 때 관련성이 적은 데이터까지 요청하는 문제가 있었다. 이때 데이터 분석가는 데이터 요청자와 인터뷰해서 문제정의 - 솔루션 - 측정 지표를 정리하여 요청 사항을 정리했다. 데이터를 잘 활용한다는 것은 데이터를 활용해 문제를 잘 정의하고 해결할 수 있다는 뜻이다. 데이터를 잘 활용하도록 만들려면 1) 데이터/실험 기반 사고방식이 전제되어야 하고 2) 분석 흐름대로 데이터를 탐색할 수 있는 환경이 필요하고 3) 이 과정을 도와주는 분석가들이 필요하다.
2. 데이터/실험 기반 사고방식
실험 프로세스/실험 보드
화해 데이터팀은 데이터/ 실험 기반의 사고방식을 만들기 위해 모든 업무를 데이터/ 실험 기반으로 기록하고자 했다. 업무를 진행할 때, 다음 가이드에 따라 조직 구성원이 업무를 기록하는 것이다. 해결하려는 문제, 관련 OKR, 측정 지표, 가설 검증 기준, 검증 후 변화될 액션, 결과, 학습한 점. 이 내용을 노션에 등록해 구성원이 실험 내용, 과정, 결과를 확인할 수 있도록 했다. 대부분의 업무를 이런 방식으로 정리하려 노력했고, 그 결과 사내 모든 구성원이 문제정의 - 솔루션 - 측정 지표를 만드는 데 익숙해졌다.
3. 분석 흐름대로 데이터를 탐색할 수 있는 환경
데이터맵
인풋 지표와 아웃풋 지표 간 관계를 표현한 관계도를 사내 구성원에게 공유했다. 중요한 지표에 집중하기 위해 두 가지 원칙을 바탕으로 지표를 정리했다. 1) 측정 가능해야 한다 2) 직접적으로 control이 가능해야 한다.
대시보드
대시보드를 만들어 지표의 현재 수준을 확인할 수 있도록 했다. 분석가가 아닌 구성원들도 중요한 지표 변동, 원인 파악하고 분석할 수 있었다.
4. 이 과정 도와주는 분석가
데이터 분석가의 역할
문제를 정의하고 원인을 분석한다. 협업팀이 실행할 수 있게 액션 아이템 도출한다.
데이터 플랫폼
사내 구성원의 빠른 분석을 위해 데이터 친화적인 구조를 만들었다. 이 구조는 모든 원천 데이터가 적재된 데이터 레이크, 빠르고 정확하게 데이터 추출할 수 있게 구조화된 데이터 웨어하우스, 데이터 레이크와 데이터 웨어하우스 내의 데이터를 확인할 수 있게 하는 데이터 카탈로그로 구성되어 있다. 데이터 웨어하우스 구축은 실제로 업무에 큰 도움이 되었다고 평가받는다.
[핵심 개념 및 용어 정리]
1. 데이터 리터러시: 데이터를 활용해 문제를 해결할 수 있는 능력
2. 데이터 요청 시 고려할 사항: 문제정의 - 솔루션 - 측정 지표
3. 데이터 분석가의 역할: 문제를 정의하고 원인을 분석한다. 협업팀이 실행할 수 있게 액션 아이템 도출한다.
4. 데이터 레이크: 모든 원천 데이터가 적재됨
5. 데이터 웨어하우스: 빠르고 정확하게 데이터 추출할 수 있게 구조화됨
6. 데이터 카탈로그: 데이터 레이크와 데이터 웨어하우스 내의 데이터를 확인할 수 있게 한다.
7. OKR: Objective와 Key Result
- Objective 작성방법
Q1. 우리 회사의 미션을 달성하기 위해서 우리가 이 기간에 도전하고 싶은 것은 무엇인가?
Q2. 구성원들은 무엇을 위해 일하고 싶어 하는가?
- Key Result 작성방법
Q1. 목표를 달성했다는 것을 알려주는 구체적 수치는 무엇인가? (수익, 이용량, 고객 만족도, 질적 지표 등)
Q2. Key Result들이 다 달성되면 Objective가 달성되었다고 생각할 수 있는가?
Q3. 현재 상태에서 열심히 했을 때 70% 정도 달성 가능한 도전적인 결과는 무엇인가?
참고 자료
https://brunch.co.kr/@tanagement/183
[공통 인사이트]
문제를 정의하여 데이터를 누구나 쉽고 빠르게 접할 수 있어야 하며 데이터를 모든 직군이 사용 할 수 있게끔 커리큘럼을 설계할 것.
[의미 있었던 의견]
빠르고 방대한 양의 데이터보다 정확하고 신속하게 대응가능하고 필요한 데이터를 활용할 수 있는 데이터 리터러시가 중요하다.
아티클은 화해라는 회사의 사례다. 데이터 친화적인 환경을 조성하는 과정이 아티클에 언급되어 있다. 데이터 분석가에게 요구되는 역량 중, 커뮤니케이션 스킬이 있다. 특히 타 부서와의 소통이 중요하다. 화해와 같이 데이터 친화적 환경이 조성되는 곳에서는 전사 구성원 간 소통이 더욱 용이할 것 같다.
한편, 다른 협업 팀의 데이터 이해 정도는 다양할 수 있다. 아티클 속 사례처럼 다른 부서 팀원이 데이터 팀에게 너무 많은 데이터를 요구할 때 소통하며 조율해야 한다. 커뮤니케이션 스킬이 중요하다는 걸 다시 한번 느꼈다.
직무 세션 4 - 원유선 튜터님
ppt 참고
진로 흐름
비전공(생명)
의료 인공지능 관심 (빅데이터의 중요성)
빅데이터 및 데이터 분석 스터디 (데이터 분석 기술 습득 - 통계학, 머신러닝, 딥러닝)
인공지능, 데이터분석 캠프 스탭 아르바이트 (실무자 면담)
인턴
(이 흐름대로 캠프에서 학습할 수 있다)
데이터 분석하기
파이썬, R, TensorFlow 공부
고민: 내가 분석한 자료를 다른 사람들에게 어떻게 보여주지?
고민 해결을 위해 한 방법
WEB 공부 시작: 누구나 사이트에 들어와서 확인할 수 있도록 함, Python으로 시작함 (블로그와 비슷)
Django, FastAPI, Flask, react 등
포트폴리오에서 데이터 리터러시를 보여주기는 어려운 면이 있다.
파이썬을 열심히 공부해서 언어에 대한 이해를 높이는 것 추천한다.
데이터 분석+웹 개발
- 데이터도 분석하고 개발도 함
- 강점: 내가 원하는 화면에 데이터 분석 결과를 보여줄 수 있었다
비전공자도 할 수 있나요?
본인의 전공 관련 도메인을 선택하기
전공 지식이 곧 도메인 지식이 된다
커리어 패스
인턴
중견 기업 신입: 중견 기업 경험도 해보는 것을 추천한다. 큰 회사, 작은 회사 모두 경험!
- 작은 회사에서는 다양한 업무를 맡게 된다.
대기업 신입: 바로 대기업 신입으로 들어가는 것보다 경력 쌓고 중고신입으로 들어가는 것이 난이도가 쉽다. 추천함
- 체계적인 시스템을 체험할 수 있다.
- 내 업무도 체계적으로 할 수 있게 된다.
스타트업 경력
기업 연구소
- 내 선택에 온전히 책임을 져야 하는 면이 있었다.
튜터님의 특화 분야
데이터 분석 파이프라인 구축
웹 개발
통계
인공지능 개발
의료 데이터 분석
금융 데이터 분석
의료 데이터 분석
의료 데이터 분석의 정의와 목적
병원, 연구소, 보건 기관 등에서 생성된 다양한 형식의 건강 및 진료 관련 데이터를 수집, 정제, 분석하여 통계적 의미를 도출하고, 이를 통해 임상적, 행정적, 정책적 결정을 지원하는 일련의 과정
<임상>
- 환자 치료 개선 및 예후 예측
- 질병 조기 진단 및 예방
<행정>
- 보건 정책 및 의사결정 지원
- 병원 운영 효율성 제고
- 의료비 절감 및 자원 최적화
→ 꼭 관련 전공(생명 등)이어야 할 필요는 없다
의료 데이터 분석 활용 사례
- IBM Watson
- 서울아산병원 빅데이터 센터
- 구글 딥마인드: 단백질 접힘 구조 예측 모델 ✔️ 딥마인드 개발진이 노벨상 수상: 인공지능 모델을 잘 개발하는 것의 중요성
의료 데이터 종류 (마저)
- 전자건강기록(EHR, EMR): 환자의 진단, 치료, 검사 결과, 투약 등 병원 내 임상 정보 포함
- 영상 데이터:
- 유전체 데이터
- 웨어러블 및 IoT 데이터
- 청구 및 보험 데이터
- 임상 시험 데이터
의료 데이터 분석 방법 (마저)
의료 데이터 분석 시 유의사항 (마저)
개인정보 보호 및 비식별화
-
- 분석 전, 이름, 주민번호 등
윤리적 문제
- 민감한 데이터를 분석하고 해석할 때는 항상 IRB(임상연구윤리심의위원회) 승인이 필요
- AI를 활용한 진단 모델이
금융 데이터 분석
금융 데이터 분석의 정의와 목적
은행, 증권, 보험, 핀테크 등 다양한 금융 산업에서 생성되는 수치 및 텍스트 기반 데이터를 수집하고, 이를 정제, 가공하여 통계 분석 및 머신러닝, 딥러닝 기법을 통해 인사이트를 도출하는 과정
- 위험 관리: 부도 가능성
- 수익 증대: 투자 수익률 예측, 포트폴리오 최적화
- 비용 절감: 사기 탐지, 내부 통제 강화
- 고객 관리: 고객 세분화, 맞춤형 상품 추천
- 시장 이해: 금융시장 동향 분석 및 투자 전략 수립
금융 데이터 종류 (마저)
정형 데이터
비정형 데이터 (*중요: 인공지능 발전하면서 비정형 데이터 분석가능성 많이 늘어남! 이미지, 소리, 감정 분석 등)
이 뒷부분은 필기 놓침! (올려주신 자료 참고하자)
금융 데이터 분석 시 유의사항 (마저)
금융 데이터는 민감하고 잘못된 분석이 법적, 금전적 손실로 이어질 수 있어 다음 사항에 각별히 유의
과최적화 방지 ------ (외부 요인의 투입해서 영향을 미칠 가능성 때문에 주의해야 한다!!)
가장 중요한 건
데이터 분석 기술 + 데이터 리터러시(데이터를 읽고 해석)
- 주어진 수업 내용에서 끝내지 말고 추가로 공부해보자! 특히 초반에
- 특히 Python 집중적으로 공부하자.
코딩 공부할 때 팁
내 코드와 강사님의 코드가 다를 때
- 결과가 다른가?
- 결과가 같다면 무엇이 다른가? 속도, 메모리 효율 등에서 차이 날 수 있다.
- 문제를 푼 후, 문제에서 활용된 개념 바탕으로 조금씩 확장해 나가자.
예시) 이 문제에서 리스트가 쓰였다. iterator로 리스트 외에도 딕셔너리, 튜플이 있다는데 어떤 상황에서 각각 이들을 쓰는걸까?
직무 세션 5 - 김연준 튜터님
ppt 참고
공모전에 관심 있으면 문의할 것
스킬
Python
PostgreSQL
PostGIS
QGIS
tableau
데이터 분석가&데이터 엔지니어 (두 직업의 경계에서)
직무 개요
- DBMS 구축, 원시 데이터 생성 및 적재, SQL 기반 Query Tuning (PostgreSQL, MySQL)
- 데이터 파이프라인 구축 및 데이터 자동화, 품질 모니터링 수행 (AWS Redshift)
- 데이터 기반 제품(서비스) 성과를 분석, 제품 개선을 위한 인사이트 제공
- A/B 테스트 및 실험 설계를 통해 제품 변경이 비즈니스 성과에 미치는 영향을 평가
- 비즈니스 주요 지표 정의, 데이터 트레킹 및 대시보드 구축을 통한 제품 전략 지원
(여기 그림 넣을까????)
데이터 엔지니어링 (마저)
- 데이터 생성 및 DBMS 구축, 데이터 적재
- 데이터 적재 자동화 및 파이프라인 구축
- Query Tuning 및 데이터 품질 모니터링
데이터 분석 및 인사이트 도출
- SQL을 활용한 유저 행동 데이터 분석
- KPI 정의 및 제품 개선을 위한 의사결정 지원
데이터 시각화 및 리포팅
필요 역량 (마저)
- AWS Redshift, DBMS: DB 및 데이터 파이프라인 구축
- SQL, QGIS: 데이터 생성, 추출 및 전처리
- A/B 테스트 및 실험 설계
- Tableau, QGIS: 데이터 시각화
- 비즈니스 도메인 이해: 모빌리티 이커머스, 유저 행동 분석
- 모빌리티 한정 GIS 중요하다
GIS란? (마저)
주요 기능
- 공간 데이터 관리: 지형, 건물, 도로 등 공간 객체를 디지털로 저장, 관리
- 공간 분석: 위치 기반 패턴 분석, 거리 계산, 접근성 평가 등
- 지도 제작 및 시각화: 데이터를 직관적으로 표현하는 인터랙티브 지도 제공
- 의사결정 지원: 도시 계획, 환경 보호, 재난 대응, 상권 분석 등에 활용
활용 분야
-
공모전 (마저)
영등포구 화재취약지역 및 소방차진입 불가구역 분석
1. 분석목적: 영등포 내 건물 간 거리가 좁고, 불법주정차로 인해
공모전은 언제?
현재 부트캠프 최종 프로젝트 직전 쯤에 참가할 수 있을 듯
데이터 획득 방식
국내 데이터: 공공데이터포털, 각 지자체별 각 부처별 공공데이터플랫폼
해외 데이터: 캐글
데이터 공모전 커뮤니티
카카오톡 오픈채팅 인원 많은 곳
직무 세션 6 - 권현진 튜터님
ppt 참고
데이터 스토리텔러에서 시작하여 의사결정 과학자로
1. 데이터 분석가의 역할
데이터 분석가란?
데이터 분석가=데이터 스토리텔러
우리는 데이터로 표현하는 데 능숙하지 않다. 어느 누구도 스토리를 숫자로 표현하는 방법을 가르쳐 주지 않았다.
데이터에는 스토리가 있다. 하지만 우리가 만든 도구는 이 스토리가 무엇인지 모른다. 그렇기에 분석가나 정보 전달자가 해당 스토리를 시각화하고 생명력을 불어넣어야 하는 이유다. '데이터 보여주기'에서 '데이터 스토리를 전달하기'로 바꾸어 생각해 봅시다.
From data to story
context - visual - declutter - focus - story
(SQL, Python) (Tableau)
데이터 스토리텔링의 3가지 요소
데이터 스토리텔링: 데이터 세트에서 얻은 인사이트를 내러티브와 시각화를 사용해 효과적으로 전달하는 능력
첫째, 데이터: 정확하고 완전한 데이터에 대한 철저한 분석
기술적 분석(descriptive): 무슨 일이 일어났나?
진단적 분석(diagnostic): 왜 이런 일이 일어났나?
예측적 분석(predictive): 미래에 어떤 일이 일어날 수 있나?
처방적 분석(prescriptive): 우리는 다음에 무엇을 해야 하나?
둘째, 내러티브: 데이터를 둘러싼 맥락, 청중에게 권장하고 영감을 주기 위한 조치에서 얻은 통찰력 전달
셋째, 시각화: 데이터와 내러티브의 시각적 표현 (차트, 그래프, 다이어그램, 사진 또는 비디오 등)
제 생각은요 vs 데이터에 따르면요
대부분의 아이디어는 단번에 성공되기 어렵기에,
데이터를 기반으로 한 테스트를 통해 검증하는 과정이 필수적입니다.
예시) 사람들이 이 색깔의 버튼을 더 많이 클릭하기 때문에 버튼을 이 색깔로 변경하는 것이 필요합니다.
사람의 직감이 통할 확률은 낮다.
소비자에게 긍정적으로 통할 것이라 예측한 뒤 실험, 실험 결과 유의미한 임팩트가 확인될 가능성은 다음과 같다.
구글: 10~20%
마이크로소프트: 10~20%
부킹닷컴: 10% 미만
(내 생각: <아이디어 불패의 법칙>에서 언급된 '될 놈'을 골라내는 실험이라고 이해해도 될까?)
Jeff Bezos, Amazon
"아마존에서의 성공은 우리가 1년, 1달, 1주 그리고 하루에 얼마나 많은 실험을 하는지에 따라 결정됩니다."
제품 개발에 있어 애자일이란?
단기간에 요구사항 정의 → 디자인 → 개발 → 테스트 → 검증(A/B 테스트) → 출시 반복
(관련 책 읽으면 감 잡을 수 있다)
데이터 기반 의사결정 (Data-driven decision-making: DDDM)
관료제적 조직의 현상: HIPPO(Highest Paid Person's Opinion)
애자일한 조직의 지향점: 고객의 니즈에 초점 맞추어 일함
왜 데이터를 봐야 할까?
1. 대부분의 직관은 예상하지 못한 결과를 가져온다.
2. 좋은 것은 바로 출시하고, 그렇지 않은 것은 좋아지게 고쳐서 출시한다.
3. 비즈니스 목표 달성에 가장 기여할 수 있는 프로덕트 개선사항부터 검증한다.
데이터 기반 의사결정의 한계
1. 혁신은 없을 수 있다.
2. 직관과 경험을 과소평가한다.
3. 불완전한 데이터로 인한 잘못된 의사결정 초래할 수 있다.
Data-Informed Decision-Making
Data-Inspired Decision-Making
실무에서 아주 꼼꼼하게 검토해서 틀린 결과와 실수 포함하지 않는 사람을 원한다.
의사결정 과학자 (Decision Scientist)
의사결정 과학자와 데이터 분석가, 데이터 사이언티스트 차이 (추가)
→ 데이터 분석가만을 목표로 하는 것 권하지 않는다. AI로 대체될 가능성 높아졌다. 의사결정 과학자를 목표로 발전해 가는 것 추천한다.
아마존 AWS, AE 직무
2. 부트캠프 학습 내용 - 제품 개발 사이클에 적용하기
제품 개발 사이클 (Product Iteration Cycle) (추가)
최소한의 통계: p-value의 이해
A/B 테스트에 대한 질문 면접에서 할 수도 있다.
3. 데이터 분석가의 현실적 어려움, 선호하는 채용 프로필
자격조건: 3년 이상의 경력 또는 데이터 관련 석사 요구함, 박사 학위 수여자를 선호함
왜 신입은 뽑지 않을까? 하지만 왜 석사 이상 학위가 있는 신입은 뽑을까?
통계학과 또는 데이터 마이닝 전공자는 데이터 분석을 학위 과정에서 연습한다. 학교에서 사고 프로세스를 이미 배우는 것이다. 논문 쓰는 프로세스 역시 도움이 되므로 석사 이상을 선호한다.
데이터 분석가 역량 LEVEL 1~4 (추가할것)
LEVEL 1:
LEVEL 2:
LEVEL 3:
LEVEL 4:
→ LEVEL 3, 4 역량 키우는 것 필수! 프로젝트에 레벨 3, 4 역량 포함시키기
포트폴리오, 이력서에 이 역량 가지고 있다고 언급
STAR Method Defined
: 표준화된 데이터 문서 작성 템플릿
예시 찾아보고 실제로 문서 쓸 때 참고하는 것이 필요
4. 데이터 분석가가 되는 다양한 진로 기회
Data Quality Specialist: toss, wanted 등 데이터 분석가 엔트리 직군(추가)
Responsibilities
- 테스트 케이스를 작성하고 정의에 따라 로그 데이터가 입수되는지 모니터링한다.
- 로그 데이터의 결함을 빠르게 탐지하여 해결을 도모한다.
- 로그 데이터를 활용한 데이터 분석을 진행하고 관련 대시보드를 만든다.
- 로그 데이터의 높은 품질을 확보하기 위한 방법을 구축한다.
Qualifications
- SQL을 다루어 본 경험이 필요하다.
- 로그 정의를 직접 해본
5. 끝없는 도전
추천 도서
순서 파괴(working backwards)
7가지 코드
ace the data science interview: 여기 있는 문제가 빅테크 입사 시험에 출제된다!
QA 자격증 소지하는 것 도움이 되는가?
어필할 만하다.
PO란?
쿠팡 PO의 책 읽어보라
의사결정 과학자를 비전공자가 한다면?
일상에서 데이터 활용해서 어떤 문제를 해결할 수 있을지 머릿속에서 시뮬레이션 돌려본다. 문제를 찾고, 문제를 해결하려면 어떻게 해야 하는지, 내 가설이 맞는지 확인한다.