빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL

TIL_250919

usungusung 2025. 9. 19. 20:15

Today I learned

 

1. 데이터 리터러시 1주차

- 데이터 리터러시란?

  • 데이터를 읽는 능력
  • 데이터를 이해하는 능력
  • 데이터를 비판적으로 분석하는 능력
  • 결과를 의사소통에 활용할 수 있는 능력

-> 데이터 수집, 원천, 활용법, 핵심 지표를 종합적으로 이해하여 올바른 질문을 던질 수 있도록 가공

 

 

- 데이터 해석 오류

  • 심슨의 역설: 부분에서 성립한 대소 관계가 전체에 대해 성립되지 않는 경우
  • 시각화를 활용한 왜곡: 자료의 표현 방법에 따른 해석의 오류 여지가 존재
  • 샘플링 편향: 전체를 대표하지 못하는 샘플 선정
  • 상관관계는 인과관계가 아님
    • 상관관계: 두 변수의 상호 의존성, 한 변수가 증가하면 다른 변수도 그 추이를 따름
    • 인과관계: 하나의 요인으로 인해 다른 요인의 수치가 변함, 원인과 결과가 명확

 

- 데이터 리터러시의 필요성

문제 및 가설 정의 -> 데이터 분석 -> 결과 해석 및 액션 도출

 

3단계로 이루어진 데이터 분석 접근법에 대해 '문제 및 가설정의' 단계에서 데이터 리터러시가 필요

 

- 문제 정의

  • 데이터 분석 프로젝트의 성공을 위한 초석
  • 분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술
  • 프로젝트의 목표를 설정하고 분석 방향을 설정

- 문제 정의 방법론 종류

  • MECE(Mutually Exclusivee, Collectively Exhaustive)
    • 문제를 상호 배타적이면서 전체적으로 포괄적인 구성 요소로 나눔
  • Logic Tree
    • MECE 원칙을 기반으로 복잡한 문제를 관리가 쉬운 하위 문제로 분해
    • 상위 문제로 시작 -> 하위 문제로 이어지는 도표 형식

 

- 데이터의 유형

  정량적 데이터 정성적 데이터
유형 정형/반정형 데이터 비정형 데이터
특징 여러 요소의 결합으로 의미 부여
객관적인 수치 기반 내용
객체 하나가 함축적인 의미를 가짐
주로 주관적
구성 및 형태 수치, 기호 문자, 언어
위치 DBMS, 로컬 시스템 내부 웹사이트, 모바일 플랫폼 등의 내부
분석 통계 분석 시 용이함 통계 분석 어려

 

 

- 지표 설정

1) 지표

  • 특정 모표나 성과를 측정하기 위한 구체적이고 측정 가능한 기준
  • 정의한 문제에 대해 정확하게 파악하기 위해 필요

2) 주요 지표 이해

  • Active User (활성 유저)
    • 서비스에 들어오는 모든 유저가 아님 -> 지표 설정 필요
    • ex) 사이트 진입 유저 or 사이트 진입 후 추가 행동을 한 유저 or 최종 액션까지 수행한 유저
  • Retention Ratio (재방문율)
    • 서비스를 한번 사용한 사람이 다시 돌아오는 비율
    • 리텐션이 높은 세그먼트를 발굴하는 작업이 필요함
    • 서비스의 사용 주기에 따라 조회 기간을 늘릴 필요가 있음 
      • N-day 리텐션
        • 최초 사용일로부터 N일 후에 재방문한 Active User의 비율
        • 한계: 서비스의 사용 주기가 길 경우 실제보다 과소평가
        • 매일 접속하는 서비스에 활용하기 적절한 지표
          • ex) SNS, 소셜 게임
      • unbounded 리텐션
        • 특정 날짜를 포함하여 그 이후에 재방문한 유저의 비율
        • 한계: 실제 방문일이 아니라도 계산에 포함시키기 때문에 부정확함
        • 사용 빈도가 높지 않은 서비스에 활용하기 적절한 지표
          • ex) 채용 사이트, 쇼핑몰
      • Bracket 리텐션
        • 설정한 특정 기간을 기반으로 재방문을 측정
        • N-day 리텐션을 확장한 개념
        • 하루 정도 접속이 없어도 리텐션 전체에는 영향을 주지 않음
        • 서비스 사용 주기가 길거나 주기적인 경우 적절한 지표
          • 식료품 배달 서비스, 세차 서비스
  • Funnel(퍼널)
    • 유저들이 어디서 이탈하는가? 를 확인하기 위한 구조화
    • 각 단계의 전환률(첫 유입 대비 전환률)을 측정
      • AARRR
        • 디지털 마케팅 시 퍼널을 활용하는 프레임워크
        • Acquisition, Activation, Retention, Revenue, Referal
  • LTV(Life Time Value, 고객 평생 가치)
    • 한명의 유저가 생애 주기 동안 얼마만큼의 이익을 주는지 정량적으로 지표화
    • 산출 방법 예시
      • 이익 X Life Time X 할인률
      • 연간 거래액 X 수익률 X 고객 지속 연수
      • 고객 평균 구매 단가 X 평균 구매 횟수
        • 산출 방법이 매우 매우 다양하기에, 다각도의 고민 필요
      • LTV를 늘리기 위해선
        • 객단가 상승
        • 구매 빈도 높임
        • 이탈률 감소, 이용시간 증가
        •  

3) 북극성 지표

  • 정의
    • 제품 및 서비스가 유저에게 주는 core value를 가장 잘 나타낸 것
  • 좋은 북극성 지표의 특징
    • 제품/서비스 전략의 핵심
    • 고객이 제품/서비스에서 느끼는 가치
    • 회사의 사업 목표를 나타내는 지표 중 선행지표
      • 유저가 목적을 달성할 때가 언제인가?
      • 모든 유저에게 해당하나?
      • 측정 가능한 지표인가?
      • 측정 주기가 적절한가?/
  • 왜 중요한가?
    • 서로 상반된 목표에 집중하거나 중복으로 일하는 것을 방지

 

- 결과

  • 데이터 처리, 분석, 모델링 후 얻어진 구체적인 데이터의 출력
  • 숫자, 통계, 그래프, 차트 등의 형태로 나타낼 수 있음

- 결론

  • 분석된 데이터 결과를 바탕으로 이끌어낸 의미 혹은 통찰
  • 목적에 대해 어떤 의미인가? 설명하는 것
  • 결론을 잘 정리하는 법
    • 단순하고 쉽게
    • 흥미를 유발하도록
    • 대상자 관점에서 접근
    • 직권적으로 이해할 수 있도록 시각화

 

2. 데이터 분석 종합반 4주차

 

3. [라이브 session] 기초 쑥쑥 Python 2일차

1) 조건문 if

score = int(input('점수 몇점: '))
if score >= 90:
    print("등급 : 대학원으로")
elif score >= 75:
    print("등급 : 수업은 들었네")
elif score >= 60:
    print("등급 : 국장 안받을거야???")
else:
    print("다시 들어라")
 
input = 80
등급 : 수업은 들었네

 

num = int(input("아무정수나써보셈"))
if num > 0:
    print("양수양수")
elif num < 0:
    print("음수음수")
else:
    print("zero")
 
input = -5
음수음수

 

2) 반복문 for

cities = ["전주", "익산", "완주"]
for city in cities:
    print(city, "에 살어리렸다")
 
전주 에 살어리렸다 익산 에 살어리렸다 완주 에 살어리렸다

 

total = 0
for i in range(2, 21): # [2, 3, 4, ... 19, 20]
    total += i
print("합쳐서", total)
 
합쳐서 110

 

total = 0
for i in range(2, 21,2): # [2, 4, 6, ...  20]
    total += i
print("합쳐서", total)
 
합쳐서 110
 

 

3) 반복문 while

count = 3
while count > 0: # 얘는 트루니까 실행됨
    print("남은 시도 몇번??", count) #남은 시도 표시
    count -= 1 # 2, 1, 까지 가서 멈춤
 
남은 시도 몇번?? 3 남은 시도 몇번?? 2 남은 시도 몇번?? 1

 

n = 1 # n이 1일 때
while n <= 50: # n이 50보다 작거나 같을 때
    if n % 5 == 0: # n을 5로 나눈 나머지가 0이라면
        print(n) # n 을 출력 하고
    n += 1 # 현재 n에 +1을 해줌, if절을 만족하거나 if절을 만족하지 않을 경우 모두
 
5 10 15 20 25 30 35 40 45 50

 

4) 조건문, 반복문 종합 실습

#실습 - 짝수/홀수 판별하기
num = int(input("숫자써줘잉: "))
if num % 2 == 0:
    print("짝수임")
else:
    print("홀수임")
 
input = 256
짝수임

 

# 1부터 5까지 출력하기
for i in range(1,6,2):
    print(i)
 
1 3 5
# 3의 배수만 출력하기
for i in range(1,16):
    if i % 3 == 0:
        print(i)
 
3 6 9 12 15

 

# 별 5개 출력하기
n = int(input("별이 몇개?"))
for i in range (n):
    print("*", end="") # end=""는 줄바꿈 없이 이어붙일때 사용
 
*****
pw = ""
while pw != "apple": # != 는 같지 않다는 뜻, 즉 pw가 apple이 아닐 동안 계속 input을 반복한다는 얘기
    pw = input("비밀번호 써줘잉")
print("로그인 성공임")

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

TIL_250923  (0) 2025.09.23
TIL_250922  (2) 2025.09.22
TIL_250918  (0) 2025.09.18
TIL_250917  (0) 2025.09.17
TIL_250916  (1) 2025.09.16