Today I learned
1. 데이터 리터러시 1주차
- 데이터 리터러시란?
- 데이터를 읽는 능력
- 데이터를 이해하는 능력
- 데이터를 비판적으로 분석하는 능력
- 결과를 의사소통에 활용할 수 있는 능력
-> 데이터 수집, 원천, 활용법, 핵심 지표를 종합적으로 이해하여 올바른 질문을 던질 수 있도록 가공
- 데이터 해석 오류
- 심슨의 역설: 부분에서 성립한 대소 관계가 전체에 대해 성립되지 않는 경우
- 시각화를 활용한 왜곡: 자료의 표현 방법에 따른 해석의 오류 여지가 존재
- 샘플링 편향: 전체를 대표하지 못하는 샘플 선정
- 상관관계는 인과관계가 아님
- 상관관계: 두 변수의 상호 의존성, 한 변수가 증가하면 다른 변수도 그 추이를 따름
- 인과관계: 하나의 요인으로 인해 다른 요인의 수치가 변함, 원인과 결과가 명확
- 데이터 리터러시의 필요성
문제 및 가설 정의 -> 데이터 분석 -> 결과 해석 및 액션 도출
3단계로 이루어진 데이터 분석 접근법에 대해 '문제 및 가설정의' 단계에서 데이터 리터러시가 필요
- 문제 정의
- 데이터 분석 프로젝트의 성공을 위한 초석
- 분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술
- 프로젝트의 목표를 설정하고 분석 방향을 설정
- 문제 정의 방법론 종류
- MECE(Mutually Exclusivee, Collectively Exhaustive)
- 문제를 상호 배타적이면서 전체적으로 포괄적인 구성 요소로 나눔
- Logic Tree
- MECE 원칙을 기반으로 복잡한 문제를 관리가 쉬운 하위 문제로 분해
- 상위 문제로 시작 -> 하위 문제로 이어지는 도표 형식
- 데이터의 유형
| 정량적 데이터 | 정성적 데이터 | |
| 유형 | 정형/반정형 데이터 | 비정형 데이터 |
| 특징 | 여러 요소의 결합으로 의미 부여 객관적인 수치 기반 내용 |
객체 하나가 함축적인 의미를 가짐 주로 주관적 |
| 구성 및 형태 | 수치, 기호 | 문자, 언어 |
| 위치 | DBMS, 로컬 시스템 내부 | 웹사이트, 모바일 플랫폼 등의 내부 |
| 분석 | 통계 분석 시 용이함 | 통계 분석 어려 |
- 지표 설정
1) 지표
- 특정 모표나 성과를 측정하기 위한 구체적이고 측정 가능한 기준
- 정의한 문제에 대해 정확하게 파악하기 위해 필요
2) 주요 지표 이해
- Active User (활성 유저)
- 서비스에 들어오는 모든 유저가 아님 -> 지표 설정 필요
- ex) 사이트 진입 유저 or 사이트 진입 후 추가 행동을 한 유저 or 최종 액션까지 수행한 유저
- Retention Ratio (재방문율)
- 서비스를 한번 사용한 사람이 다시 돌아오는 비율
- 리텐션이 높은 세그먼트를 발굴하는 작업이 필요함
- 서비스의 사용 주기에 따라 조회 기간을 늘릴 필요가 있음
- N-day 리텐션
- 최초 사용일로부터 N일 후에 재방문한 Active User의 비율
- 한계: 서비스의 사용 주기가 길 경우 실제보다 과소평가
- 매일 접속하는 서비스에 활용하기 적절한 지표
- ex) SNS, 소셜 게임
- unbounded 리텐션
- 특정 날짜를 포함하여 그 이후에 재방문한 유저의 비율
- 한계: 실제 방문일이 아니라도 계산에 포함시키기 때문에 부정확함
- 사용 빈도가 높지 않은 서비스에 활용하기 적절한 지표
- ex) 채용 사이트, 쇼핑몰
- Bracket 리텐션
- 설정한 특정 기간을 기반으로 재방문을 측정
- N-day 리텐션을 확장한 개념
- 하루 정도 접속이 없어도 리텐션 전체에는 영향을 주지 않음
- 서비스 사용 주기가 길거나 주기적인 경우 적절한 지표
- 식료품 배달 서비스, 세차 서비스
- N-day 리텐션
- Funnel(퍼널)
- 유저들이 어디서 이탈하는가? 를 확인하기 위한 구조화
- 각 단계의 전환률(첫 유입 대비 전환률)을 측정
- AARRR
- 디지털 마케팅 시 퍼널을 활용하는 프레임워크
- Acquisition, Activation, Retention, Revenue, Referal
- AARRR
- LTV(Life Time Value, 고객 평생 가치)
- 한명의 유저가 생애 주기 동안 얼마만큼의 이익을 주는지 정량적으로 지표화
- 산출 방법 예시
- 이익 X Life Time X 할인률
- 연간 거래액 X 수익률 X 고객 지속 연수
- 고객 평균 구매 단가 X 평균 구매 횟수
- 산출 방법이 매우 매우 다양하기에, 다각도의 고민 필요
- LTV를 늘리기 위해선
- 객단가 상승
- 구매 빈도 높임
- 이탈률 감소, 이용시간 증가
3) 북극성 지표
- 정의
- 제품 및 서비스가 유저에게 주는 core value를 가장 잘 나타낸 것
- 좋은 북극성 지표의 특징
- 제품/서비스 전략의 핵심
- 고객이 제품/서비스에서 느끼는 가치
- 회사의 사업 목표를 나타내는 지표 중 선행지표
- 유저가 목적을 달성할 때가 언제인가?
- 모든 유저에게 해당하나?
- 측정 가능한 지표인가?
- 측정 주기가 적절한가?/
- 왜 중요한가?
- 서로 상반된 목표에 집중하거나 중복으로 일하는 것을 방지
- 결과
- 데이터 처리, 분석, 모델링 후 얻어진 구체적인 데이터의 출력
- 숫자, 통계, 그래프, 차트 등의 형태로 나타낼 수 있음
- 결론
- 분석된 데이터 결과를 바탕으로 이끌어낸 의미 혹은 통찰
- 목적에 대해 어떤 의미인가? 설명하는 것
- 결론을 잘 정리하는 법
- 단순하고 쉽게
- 흥미를 유발하도록
- 대상자 관점에서 접근
- 직권적으로 이해할 수 있도록 시각화
2. 데이터 분석 종합반 4주차
3. [라이브 session] 기초 쑥쑥 Python 2일차
1) 조건문 if
score = int(input('점수 몇점: '))
if score >= 90:
print("등급 : 대학원으로")
elif score >= 75:
print("등급 : 수업은 들었네")
elif score >= 60:
print("등급 : 국장 안받을거야???")
else:
print("다시 들어라")
input = 80
등급 : 수업은 들었네
num = int(input("아무정수나써보셈"))
if num > 0:
print("양수양수")
elif num < 0:
print("음수음수")
else:
print("zero")
input = -5
음수음수
2) 반복문 for
cities = ["전주", "익산", "완주"]
for city in cities:
print(city, "에 살어리렸다")
전주 에 살어리렸다 익산 에 살어리렸다 완주 에 살어리렸다
total = 0
for i in range(2, 21): # [2, 3, 4, ... 19, 20]
total += i
print("합쳐서", total)
합쳐서 110
total = 0
for i in range(2, 21,2): # [2, 4, 6, ... 20]
total += i
print("합쳐서", total)
합쳐서 110
3) 반복문 while
count = 3
while count > 0: # 얘는 트루니까 실행됨
print("남은 시도 몇번??", count) #남은 시도 표시
count -= 1 # 2, 1, 까지 가서 멈춤
남은 시도 몇번?? 3 남은 시도 몇번?? 2 남은 시도 몇번?? 1
n = 1 # n이 1일 때
while n <= 50: # n이 50보다 작거나 같을 때
if n % 5 == 0: # n을 5로 나눈 나머지가 0이라면
print(n) # n 을 출력 하고
n += 1 # 현재 n에 +1을 해줌, if절을 만족하거나 if절을 만족하지 않을 경우 모두
5 10 15 20 25 30 35 40 45 50
4) 조건문, 반복문 종합 실습
#실습 - 짝수/홀수 판별하기
num = int(input("숫자써줘잉: "))
if num % 2 == 0:
print("짝수임")
else:
print("홀수임")
input = 256
짝수임
# 1부터 5까지 출력하기
for i in range(1,6,2):
print(i)
1 3 5
# 3의 배수만 출력하기
for i in range(1,16):
if i % 3 == 0:
print(i)
3 6 9 12 15
# 별 5개 출력하기
n = int(input("별이 몇개?"))
for i in range (n):
print("*", end="") # end=""는 줄바꿈 없이 이어붙일때 사용
*****
pw = ""
while pw != "apple": # != 는 같지 않다는 뜻, 즉 pw가 apple이 아닐 동안 계속 input을 반복한다는 얘기
pw = input("비밀번호 써줘잉")
print("로그인 성공임")
'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글
| TIL_250923 (0) | 2025.09.23 |
|---|---|
| TIL_250922 (2) | 2025.09.22 |
| TIL_250918 (0) | 2025.09.18 |
| TIL_250917 (0) | 2025.09.17 |
| TIL_250916 (1) | 2025.09.16 |