[내일배움캠프] 데이터 트랙/본 캠프

[내일배움캠프] 1일 차 - 데이터 리터러시, 아티클 스터디, 직무 스터디

554083460 2025. 5. 12. 20:41

 

 

 

 데이터 리터러시 1-1, 1-2

 

 

더보기

데이터 리터러시란?

- 데이터를 읽는 능력

- 데이터를 이해하는 능력

- 데이터를 비판적으로 분석하는 능력

- 결과를 의사소통에 활용할 수 있는 능력

 

- 데이터 수집과 데이터 원천을 이해

- 데이터에 대한 활용법을 이해

- 데이터를 통한 핵심지표를 이해

→ 데이터 리터러시는 올바른 질문을 던질 수 있게 만들어줌

 

데이터 분석에 대한 착각

- 데이터를 잘 분석하면 문제, 목적, 결론이 나올 것이라고 생각

- 데이터를 잘 가공하면 유용한 정보를 얻을 수 있다고 생각

- 분석에 실패하면 방법론, 스킬이 부족한 것이라고 생각

 진짜 문제는 리터러시

 

심슨의 역설 (Simpson's Paradox)

- 부분에서 성립한 대소관계가 그 부분을 종합한 전체에 대해서는 성립하지 않는 모순적 경우

 

- 백신 접종자의 치명률이  백신 미접종자의 치명률보다 5배 이상 높다.

- 하지만, 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되지는 않는다.

데이터에 기반한 결론이라고 해서 맹목적으로 받아들여서는 안 된다.

 

시각화의 왜곡

- 자료의 표현 방법에 따라 해석의 오류 여지가 존재함

 

- 있는 그대로의 자료, 증가량에 로그 취한 자료, 노동자와 자본가의 최초 수입 100%로 높고 이후 증가율 측정

- 왼쪽: 노동자 임금 현저히 낮음

- 중간: 노동자 임금 증가가 급격하게 이루어져 왔다고 해석될 여지 존재

- 오른쪽: 노동자 임금 증가가 자본가 수입 증가를 훨씬 능가한다고 해석할 여지 존재

 

샘플링 편향(Sampling Bias)

- 전체 대표하지 못하는 편향된 샘플 선정으로 오류 발생

 

상관관계와 인과관계

- 상관관계: 두 변수가 얼마나 상호 의존적인지

- 양의 상관관계: 두 변수가 같은 방향으로 움직임

- 음의 상관관계: 두 변수가 다른 방향으로 움직임

 

- 인과관계: 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태

원인과 결과가 명확

 

- 상관관계는 인과관계가 아니다.

→ 상관관계만으로 섣불리 의사결정하지 않는다.

→ 양쪽을 모두 활용하여 합리적 의사판단 할 것

 

Q1. 이 그래프를 통해 어떤 것을 말할 수 있나요?

(데이터를 읽는 것에 관련된 질문)

- 회사 내 부서별 인원수

- 회사에 저 부서 외에 다른 부서는 없다면, 회사의 전체 부서 수

- 회사에 저 부서 외에 다른 부서는 없다면, 회사의 전체 인원수

- 개발팀 가장 인원 많음

- 고객지원팀 가장 인원 적음

 

Q2. 이 그래프를 작성한 사람은 무엇을 말하고 싶었을까요?

(데이터 작업 전 알고 싶은 것을 생각해 보는 목적 사고적 방식)

- 부서별 인원 차이가 있다.

- 부서별 회사에서 차지하는 중요도가 다르다.

- 특정 부서는 다른 부서에 비해 적은 인원이 있는데, 이는 문제일 수도 있다.

 

데이터 분석에 대한 접근법

- 문제 및 가설 정의: 생각   (데이터 리터러시가 필요한 부분)

- 데이터 분석: 작업

- 결과 해석 및 액션 도출: 생각   (데이터 리터러시가 필요한 부분)

 

데이터 분석에 실패하는 이유

- 문제를 명확하게 정의하지 않음

 

문제 정의

- 데이터 분석 프로젝트 성공 위한 초석

- 분석하려는 특정 상황, 현상에 대한 명확하고 구체적인 진술

- 프로젝트 목표 설정, 분석 방향 결정

 

Q. 문제 정의 예제

- 상황: 3개월 전부터 자사 제품의 사용자 수가 감소하고 있다. 

사용자 수를 늘리기 위한 포인트 이벤트를 하고 있지만 효과가 없어 보인다.

또한 자사 제품 내 서비스 중 A보다 B가 더 안 좋은 상황이다.

사용자가 줄었기 때문에 수입도 감소하고 있다.

 

- 문제 정의 (내 답안)

제품 사용자 수 감소의 원인은 무엇인가?

포인트 이벤트가 효과가 없었던 이유는 무엇인가?

두 서비스 중 안 좋은 상황에 놓인 서비스를 없앨 것인가?

 

- 강의의 답안

1. 사용자 수는 생각해 볼 만한 문제다.

해결하고 싶은 것이 수입 감소라면 사용자 수는 문제가 아닌 원인이다.

2. 이벤트 효과가 없는 것은 살펴볼 만하다. 

하지만 이벤트 효과가 없기 때문에 발생하는 문제는 근본적으로 해결되어야 할 문제는 아니다.

3. A 서비스보다 B 서비스가 상황이 안 좋아진 이유를 살펴보는 것은 필요하다.

근본적인 문제는 아니다.

4. 수입이 감소한 것은 문제다.

수입의 감소는 매우 중요한 문제다. 그러나 단어를 더 명확하게 정의할 필요가 있다. 매출액인지 순이익인지 등.

 

문제 정의 방법론: MECE

- MECE (Mutually Exclusive, Collectively Exhaustive)

- 문제 해결과 분석에서 널리 사용되는 접근 방식

- 문제를 상호 배타적이면서 전체적으로 포괄적인 구성요소로 나누는 것

- 복잡한 문제 체계적으로 분해하고 구조화된 방식으로 분석할 수 있음

- 중복과 누락이 없도록 해야 함

 

문제 정의 방법론: Logic Tree

- MECE 원칙을 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는 데 사용

- 상위 문제로부터 시작하여 하위 문제로 계층적 접근

- 일반적으로 도표 형식으로 표현되어 쉽게 파악할 수 있음

Q. 로직 트리 예제

- 수익성 개선 방법 (내 답안)

 

- 강의 답안

 

로직트리 Cheat Sheet

- Nescafe

 

 

문제정의를 왜 하는 것일까?

- 풀고자 하는 것을 명확하게 정의

- 문제를 해결하기 위한 데이터 분석의 방향성 정함

- 결과 정리, 해석

- 더 나아지기 위한 새로운 액션 플랜 수립 위함

 

- 문제정의의 핵심 So What?, Why So?

- So What?

수집한 정보와 소재에서 '결국 어떻다는 것인지'를 알아내는 것

'그래서', '따라서', '이렇듯' 이라는 표현 앞에 오는 정보나 소재에서 과제의 답변에 맞는 중요한 핵심 추출

나타난 현상 바탕으로 과제에 비추어 말할 수 있는 내용의 핵심 추출

- Why So?

왜 그렇게 말할 수 있는지?

구체적으로 무슨 뜻인지 검증하고 확인하는 작업

So What? 한 요소의 타당성을 자료 전체, 혹은 그룹화한 요소로 증명할 수 있다는 사실을 검증하는 작업

 

문제정의와 관련된 팁

- 결과를 공유하고자 하는 사람이 누구인지 정의하기

- 결과를 통해 원하는 변화를 생각하기

- 회사 소속이라면, 경영자의 입장에서 보려고 노력

- 많은 사람들과 의견을 나눠보는 것도 방법

- 반드시 혼자서 오래 고민해 보는 시간을 가질 것

 

 

 

 아티클 스터디

 

 

* 외출로 인해 스터디에 참여하지 못했다. 혼자서 아티클을 읽고 정리했다.

 

 

아티클: 데이터 분석가가 갖춰야 할 9가지 역량

https://yozm.wishket.com/magazine/detail/2070/

 

 

[실무 적용 사례]

 

 데이터 분석가에게 필요한 소프트 스킬 중 하나로 언급된 문제 정의 및 문제 해결 능력의 예시를 찾아보았다.
<데이터 마인드 기르는 습관>(구자룡 저)에서 발췌한 내용에 상상력을 더해 재구성했다.


 데이터 분석 프로세스는 문제 정의, 가설 수립, 데이터 분석, 문제 해결의 순서로 진행된다. 건강기능식품 기획자가 새로운 제품으로 시장 확대를 시도하려 한다고 가정하자. 이때 가장 먼저 문제 정의를 한다.
”2020년 이후로 건강기능식품 중 홍삼에 대한 수요가 폭발적으로 늘었다. 지금이 홍삼 시장 확대에 나서기 좋은 시기인가?“

 가설을 수립해 보자. 소비자들의 면역력에 대한 관심 증대로 인해 홍삼 수요가 늘어났다. 이제 데이터를 분석할 단계이다. 2차 데이터인 뉴스를 활용해서 분석한다. 텍스트 마이닝 방식으로 의미 있는 정보, 특정 단어가 나오는 빈도를 알아낸다. 구체적으로는 빅카인즈에서 형태소 분석을 한다.

 

 그 결과 '건강기능식품'에 대한 분석 결과를 얻을 수 있었다. 2020년에 홍삼을 포함한 건강기능식품의 언급량이 전반적으로 증가했다. 건강기능식품 중에서는 '오메가'와 '프로바이오틱스'에 대한 언급량이 많고 연결망이 가장 발달해 있었다. 그리고 건강기능식품 신제품 기사는 지속해서 하락하는 추세였다. 2020년도에 가장 많이 언급된 후 그 이후로 매년 하락하고 있다.

 이제 문제를 해결할 단계다. 건강기능식품 중 홍삼의 수요만이 유의미하게 늘었다고 하기에는 어려움이 있다. 전반적으로 언급량이 증가했기 때문이다. 가장 언급량이 많았던 것은 오메가, 프로바이오틱스 등 다른 제품이었다. 또한 소비자들의 면역력에 의한 관심 증대는 코로나19라는 특수한 요인에 의한 결과로 보아야 한다. 2020년에 피크를 찍고 그 이후로 매년 하락하는 것이 이를 뒷받침한다. 결국 홍삼의 수요가 늘어난 것은 일시적이며 앞으로도 그럴 것이라고 예상하기는 어렵다. 지금은 홍삼 시장 확대할 적기가 아니다.

 

 

 

 직무 스터디

 

 

관심 있는 직무

데이터 분석가

 

왜 데이터 분석가인가? 

가치중립적인 로우 데이터(raw data)에서 가치(인사이트)를 창출하는 것이 흥미로웠다.

 

관심있는 도메인

이커머스, 금융, 화장품

 

데이터 분석가란?

데이터에서 인사이트를 발견해 회사의 의사결정을 돕는 사람

 

데이터 분석가가 하는 일

1. 데이터 수집

2. 데이터 정리

3. 통계 분석 및 모델링

4. 대시보드 및 보고서 생성

 

데이터 분석가에게 필요한 역량

1. 하드 스킬: 데이터 분석 도구와 프로그래밍 언어

- 엑셀: 데이터 정리, 기본 분석

- SQL: DB와 통신하는 프로그래밍 언어

- 파이썬: 빅데이터 처리 위한 프로그래밍 언어

- Tableau, Power BI: 분석 결과 직관적으로 보여주는 시각화 도구

 

- 통계학: 상관관계, 회귀 분석, 인과 관계, A/B 테스트

- 툴 다루는 역량: SaaS 툴(구글 애널리틱스, 앰플리튜드), BI 툴(루커 스튜디오, 태블로 등)

- 업무 자동화

- 데이터 엔지니어링

 

2. 소프트 스킬: 의사결정의 기준 세우기 위한 역량

- 커뮤니케이션 능력

- 논리적 사고방식

- 문제 정의, 문제 해결 능력

- 도메인 및 비즈니스 모델에 대한 이해

 

참고자료

https://nbcamp.spartacodingclub.kr/blog/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B0%80-%EC%A0%84%EB%A7%9D%EC%9D%80--2789

 

https://yozm.wishket.com/magazine/detail/2070/

 

 

(+) 그 외 더 조사할 것

채용 공고, 주요 데이터, 조사 과정에서 알게 된 인사이트