빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL

TIL_251226

usungusung 2025. 12. 26. 21:12

1. 오전 문제풀이(이상치 탐지 2)


Q1. SPC Zone Rule 기반 Rule1 탐지(± 3σ 초과 포인트)

 

2. [라이브세션] 생성형 AI를 활용한 실전 리포팅 및 AI 서비스 개발 4회차

강의 목차

  • n8n의 정의와 Fair-code 라이센스 개념을 설명할 수 있음.
  • n8n AI Agent를 이용하여 리포트 자동화를 구축함
  • 데이터 수집과 적재에 대한 파이프라인 이해

 

1) n8n

자동화를 시각적인 workflow로 만들고 구축할 수 있는 Fair-code 소스 프로젝트

※Fair-code: 기본적으로는 오픈소스, 상업적 용도에 따라 라이선습 ㅕㄴ동

node to node라서 n8n임

 

장점

접근성 - 프로그래밍 언어를 몰라도 GUI로 자동화 가능

가독성 - 플로우차트 형태로 업무 흐름을 시각적으로 파악, 복잡한 비즈니스 로직도 도식화

확장성 - 500+ 노드 기본 제공, 클라우드 이용 시 AI assist 가능

도입 용이성 - 회사 내부 서버에 설치하여 보안 요구사항 충족, Docker 컨테이너로 쉬운 배포, 클라우드와 온프레미스 모두 지원

비용 효율성 - 셀프 호스팅 시 비상업적 무료

 

단점

학습 곡선 - 노코드 툴이지만 HTTP, JSON, API 등 기본 개념 이해 필요, 복잡한 로직 구현 시 프로그래밍 사고 요구

디버깅 어려움 - 시각적 도구의 한계로 세밀한 디버깅 어려움, 에러 메세지가 불명확할 때도 있음

ㅂㅣ용 - 클라우드 사용 시 월 20유로부터 시작

성능 한계 - 매우 복잡하거나, 대용량 데이터 처리 시 성능 이슈

 

이렇게 해보면 어떤 문제가 발생하게 되는가?

어떤 노드를 언제 쓸 지에 대해 불친절함. 뭘 쓸지 모름.

자주 쓴느 노드 모음

 

2) n8n을 활용한 AI Agent

 

 

3. [라이브세션] 라떼톡 + 고민상담소

1. 데이터 분석 프로젝트의 출발점
: 데이터를 받았을 때 가장 먼저 해야 할 것
핵심 원칙
데이터 분석은 기술이 아니라 의사결정 지원이다.
1-1. Why / What / How를 먼저 정의
  • Why: 왜 이 분석을 하는가?
  • What: 무엇을 예측·설명하고 싶은가?
  • How: 이 결과로 누가 어떤 결정을 내리는가?
1-2. 비즈니스 맥락 파악
어떤 데이터가 필요한가?
분석 결과로 누가 행동(Action) 해야 하는가?
  • 단순 정확도보다 의사결정에 쓰이는가가 중요
1-3. Target & 가설 설정
• Target 변수 명확화 (매출, 이탈, 불량, 금리 민감도 등)
• “이 요인이 결과에 영향을 줄 것이다”라는 가설 기반 접근
• 수백 개 컬럼 중 우선순위 설정이 가능해짐c9ca469b-d77a-42e8-8084-7adff40…2. EDA 단계에서 길을 잃지 않는 방법
: 컬럼이 많고 구조가 복잡할 때
2-1. 메타데이터부터 본다
  • Data Dictionary로 컬럼 의미 파악
  • 수치형 / 범주형 / 시계열 여부 확인
2-2. 컬럼 스크리닝 전략
 DA 관점: 지표 계산에 필요한 컬럼 위주
 ML 관점:
상관계수
간단한 모델(RandomForest 등)로 중요 변수 1차 선별
2-3. 데이터의 “생성 단위” 확인
  • 일별 데이터인가?
  • 고객 단위인가?
  • 시계열 단위가 섞여 있는가?
→ 이 단계에서 분석의 한계 / 사용 불가능한 데이터도 같이 파악c9ca469b-d77a-42e8-8084-7adff40…3. 분석의 완성도란 무엇인가?
: “실무적으로 의미 있는 분석”의 기준
 복잡한 알고리즘 = 좋은 분석
 Action으로 이어지는 분석
3-1. So What에 답해야 한다
“그래서 무엇을 해야 하는가?”
  • Low accuracy라도 의사결정 힌트가 되면 가치 있음
3-2. ROI 관점
• 0.1% 정확도 개선에 1달?
• 80% 정확도로 바로 실행?
→ 상황에 따라 후자가 더 가치 있음
3-3. 해석 가능성
• 이해관계자가 이해·설득 가능해야 함
• “왜 이런 결과가 나왔는지” 설명 가능해야 실무에서 사용됨c9ca469b-d77a-42e8-8084-7adff40…4. 프로젝트 방향이 처음과 달라질 때의 태도
중요한 관점 전환
가설과 다르게 흘러가는 것은 실패가 아니라 “발견”
“A가 원인일 줄 알았는데 아니었다”
데이터가 보여주는 새로운 패턴 수용
  • 이때는 이해관계자와 소통하며 방향 수정
→ 목적을 다시 확인하고 유연하게 재정렬c9ca469b-d77a-42e8-8084-7adff40…5. 실무 데이터 분석 흐름은 실제로 동일한가?
답: 거의 동일하다
기본 흐름
문제 정의 → EDA → 분석 → 해석
실무 예시 (요약)
• 최근 3개월 특정 캠페인 이후 금리 상품 조기 해지율 15% 상승
• 특정 고객군에서 해지 집중
• 경쟁사 금리 인상 시점과 해지 시점이 일치
 금리 민감 고객군이 전체 해지의 70% 차지
• → 고위험 고객 대상 타겟 마케팅 / 상품 조건 조정
(예상 방어 매출 수억 원)c9ca469b-d77a-42e8-8084-7adff40…6. 데이터 선택 & 난이도에 대한 오해
6-1. “재미있는 주제”가 중요
  • 이해 없는 분석 = 그냥 AI 실행
  • 몰입 가능한 주제가 인사이트 품질을 결정
6-2. 데이터 난이도는 우선순위 아님
  • 데이터가 아니라 문제와 가치가 먼저
  • 난이도는 목적에 따라 자연히 결정됨
6-3. 고난이도 기술 ≠ 취업 직결
• 대시보드·집계로 충분한 경우도 많음
• “적절한 분석 선택”이 진짜 고급 역량c9ca469b-d77a-42e8-8084-7adff40…7. 데이터가 복잡할 때의 실무 전략
• “복잡하다”는 말 자체가 추상적
컬럼이 많은가?
비정형 데이터가 섞였는가?
이미지/좌표 데이터인가?
대응 전략
  • 컬럼 묶기 (도메인별)
  • 문제별 분리 분석 후 통합
  • 팀 프로젝트라면 역할 분할이 최선
8. 도메인 트렌드 & 취업 메시지
핵심 메시지
도메인 자체보다 “어떤 인사이트를 어떻게 도출했는가”가 중요
제조 공정 → 품질 개선 인사이트
  • 도메인이 달라도 문제 해결 구조는 유사
  • 시계열, 품질, 이상 탐지 경험은 범용성 높음
  • 멀티모달(다중 데이터 형태)도 점점 중요해짐
→ 도메인에 과도하게 집착할 필요 없음

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

TIL_251230  (1) 2025.12.30
TIL_251229  (0) 2025.12.29
TIL_251224  (0) 2025.12.24
TIL_251223  (1) 2025.12.23
TIL_251222  (1) 2025.12.22