빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL

TIL_251222

usungusung 2025. 12. 22. 20:35

Today I learned

 

 

1. [라이브세션] 생성형 AI를 활용한 실전 리포팅 및 AI 서비스 개발 1회차

 

1) 강의 목표

  • google AI Studio의 사용법을 익히고, gemini 제품군 이해
  • Temperature, token 개념 이해

 

2) LLM 모델의 사용 설명서

  • LLM이 의사소통 하는 방법
    • LLM: 구글이나 OpenAI가 제공하는 서비스
  • Token
    • LLM도 모델이라서 '숫자 형태로 학습'
    • Encoding을 통해 문자를 숫자로 변형했던 machine Learning 방법 처럼, Token 단위로 쪼개 변환(Embedding)
    • Tokenizer: https://platform.openai.com/tokenizer

 

요로코롬 내 질문이 어떻게 쪼개지는지 시각화

 

 

 

- 모델의 종류

  • 사실 정리하는게 그때그때 다름... LLM 모델 자체는 매번매번 새로 만들어지는거라
  • 보통 고성능 vs 저성능 모델의 분화
    • gemini Pro: 고성능, 복잡한 코딩과 추론이 가능, 비쌈
    • gemini Flash: 저성능, 간단, 이미지 생성에 장점
  • 각 모델의 지원 데이터 타입, knowlodge cut off 비용 등은 API 페이지에서 확인할 수 있음.
 

Gemini 모델  |  Gemini API  |  Google AI for Developers

Gemini 2.5 Pro를 비롯한 Google의 최첨단 AI 모델에 대해 알아보기

ai.google.dev

 

 


LLM api 문서에서 주로 확인할 내용

항목 의미 개발 시 고려사항
토큰 수 (Token Count) 모델이 텍스트를 처리하는 최소 단위. (한글은 보통 1자당 1~2토큰) 입력(Prompt)과 출력(Completion) 토큰의 합이 모델의 제한을 넘지 않도록 관리해야 함.
100만 토큰당 비용 (Cost per 1M) API 사용료 산정의 기준점. 보통 입력(Input)출력(Output) 단가가 다름. 출력 토큰이 입력보다 보통 3~10배 비싸므로, 답변 길이를 조절하는 프롬프트 엔지니어링이 비용 절감의 핵심.
컨텍스트 윈도우 (Context Window) 모델이 한 번에 기억/처리할 수 있는 최대 토큰 양. (현재 128K~1M+ 수준) RAG(검색 증강 생성) 구현 시, 너무 많은 참고 문서를 넣으면 비용이 급증하고 응답 품질이 떨어질 수 있음.
지연 시간 (Latency: TTFT/TPS) 첫 토큰 생성까지의 시간(TTFT)과 초당 생성되는 토큰 수(TPS). 실시간 채팅 서비스라면 TTFT가 짧은 모델을, 대량 문서 요약이라면 TPS가 높은 모델을 선택.
속도 제한 (Rate Limits) 분당 요청 수(RPM, Request Per Minute) 및 분당 토큰 수(TPM, Token Per Minutes) 제한. 트래픽이 몰릴 때 429 Error(Too Many Requests) 처리를 위한 재시도(Retry) 로직과 큐잉 시스템 필요.
프롬프트 캐싱* (Prompt Caching) 반복되는 긴 프롬프트(시스템 프롬프트 등)에 대해 비용을 할인해주는 기능. 동일한 배경 지식을 자주 사용하는 서비스라면 캐싱을 지원하는 API를 선택해 비용을 최대 90%까지 절감 가능.

 

2025.12 기준 gemini 라인업 비교

Gemini 3 Pro 최첨단 추론 및 코딩. 복잡한 논리 분석, 대규모 코드베이스 관리, 에이전트형 작업에 최적화된 플래그십 모델. 200만 토큰 이상 현재 가장 강력한 성능
Gemini 2.5 Pro 범용 고성능 모델. 멀티모달 이해도가 높으며 전문적인 문서 요약 및 창의적 글쓰기에 적합. 100만 ~ 200만 토큰 Gemini Advanced 기본 모델
Gemini 2.5 Flash 속도와 성능의 균형. 빠른 응답이 필요한 챗봇, 실시간 데이터 처리, 대량의 문서 분석에 최적화. 100만 토큰 개발자 API에서 가장 선호
Gemini 2.5 Flash-Lite 초저비용 및 초고속. 간단한 텍스트 분류, 짧은 응답 생성 등 비용 효율이 중요한 대규모 서비스용. 100만 토큰 가장 저렴한 가격대
Gemini 2.0 Flash Live 실시간 상호작용. 음성 및 영상 데이터를 실시간으로 주고받는 멀티모달 라이브 기능에 특화. 약 12.8만 토큰 실시간 대화 최적화

 

 

3) 구글 AI 스튜디오

python 작업할 때 바로 시작하지 말고 여기서 연습하고 가세요~

  • temperature: 높을수록 창의적임
  • Top P(0-1): 높을수록 다양성, 낮을수록 재현성 있는 결과
  • Feature: 모델 선택: Pro or flash?
  • System instructions: 답변 전역설정 같은

 

 

 

 

2. [라이브세션] 품질관리를 위한 고급 통계 1회차

학습 목표

  • 개념 정립: QA와 QC의 차이를 이해하고, Six Sigma의 6단계 방법론을 설명함
  • 원인 분석: 품질 문제 발생 시, Fishbone Diagram과 5 Why 기법을 활용하여 근본 원인을 도출한다.
  • 변동 제어: 공정의 자연 변동과 특별 변동을 구분하고, SPC 관리도를 통해 공정의 안정성을 평가

 

품질관리의 개념과 차이점

  • QA(Quality Assurance, 품질보증): 제품 또는 서비스가 요구된 품질을 충족하도록 사전 예방적인 활동을 수행
    • 프로세스 중심, 품질 정책 및 절차 수립, 지속적인 개선
  • QC(Quality Control, 품질관리): 생산된 제품이 요구된 품질 기준을 충족하는지 검사하고 결함을 식별하는 활동
    • 제품 중심, 샘플 검사, 결함 제거

 

Six sigma 방법론

  • 데이터 기반의 품질 관리 프로세스 및 개선 방법론
  • 결함을 최소화, 효율성을 극대화 하는데 중점
  • 1980년대 모토로라에서 개발, 이후 Ge, 삼성, LG 등 글로벌 기업들이 채용
  • 핵심 목표: 100만개 제품 기준 3.4개 이하의 결함을 목표
  • 공정 데이터가 정규분포를 다른다고 가정
  • 정규분포를 따르지 않을 경우
    • Box-cox 변환, Johnson 변환 등의 방법을 사용해 데이터를 정규화하여 6 시그마 기법을 적용

 

 

 

비정규분포일 경우에도 공정 능력 지표(ex. Cpk, Ppk)를 사용할 수 있으며, 비모수적 기법을 활용하여 데이터 분석

 

1. SPC(Statistical Process Control)

  • 통계적 기법을 활용하여 공정 변동을 모니터링하고, 제어하는 품질 관리 방법론
  • 품질관리차트를 사용하여 공정이 정상 범위 내에서 운영되는지 확인
  • 이상 변동과 자연 변동을 구별하여 개선 활동 수행.

 

 

 

2. Six Sigma의 방법론

DMAIC 방법론

Define, Measure, Analyze, Improve, Control의 5단계로 구분

 

1) Define: 문제 정의 및 프로젝트 목표 설정

  • 고객의 요구사항 및 핵심 성과 지표(KPI) 설정
  • 고객의 기대를 파악하고 제품 또는 서비스의 필수 품질 요소 정의
  • KPI(Key Performance Indicator)는 프로세스의 성과를 측정하는 기준, 정량적인 목표 설정
    • ex) 불량 감소율 등

KPI: 핵심 성과 지표

  • 프로젝트의 성과를 측정하는 기준이 되는 정량적 목표
  • 기업 or 조직이 설정한 목표 달성 여부 평가를 위해 사용
  • 특징:
    • 측정 가능하고 구체적인 데이터 기반 지표
    • 일정기간 내에 달성해야 할 목표를 명확히 설정
    • 조직의 전략적 목표와 일치해야 함
    • ex) 제조업: 불량률 감소(3개월 내 불량률 5 % -> 2 %), 시스템 가동률 유지

CTQ( Critical To Control )요소 식별

  • 고객의 요구 사항 중에서 제품/서비스의 품질을 결정하는 핵심 요소
  • CTQ 요소는 고객의 기대를 충족시키기 위해 반드시 개선되어야 하는 영역
  • ex) 배터리 수명, 반응 속도, 디스플레이 품질 등
  • CTQ 요소 식별 단계
    • 고객의 기대 사항 파악
    •  고객이 제품이나 서비스에서 기대하는 핵심 품질 속성을 정의
    • 고객 요구 사항을 품질 특성으로 변환
    • 고객의 주관적인 요구를 정량적이고 측정 가능한 품질 특성으로 변환
  • CTQ 트리 활용
    • 고객 요구 사항을 세부적인 품질 속성으로 계층 구조화하여 CTQ 요소 도출
    • ex)
      • 고객 요구사항: 스마트폰 배터리 수명이 길어야 한다
      • CTQ 요소: 용량, 사용시간, 충전 속도 등등...
    • CTQ 요소의 우선순위 결정
    • CTQ 요소들 중 가장 중요한 요소를 선정하여 개선 활동의 목표 설정
    • 고객 불만 및 품질 데이터 분석을 통해 결정 가능
  • CTQ 예제
    • 스마트폰 - 배터리 지속 시간 - 배터리 용량, 충전 속도
    • 자동차 - 연료 효율성 - 연비, 엔진효율성
    • 온라인 쇼핑몰 - 배송 속도 - 평균 배송 시간, 주문 처리 시간
    • 소프트웨어 - 빠른 응답 속도 - 로딩시간, 시스템 가동성

 

 

 

2) Measure: 현재 공정 성능 및 결함을 측정

  • 데이터를 수집하고 공정 변동 분석
  • DPMO(Defects Per Million Opportunities) 계산
    • Defects(결함 수) 측정: 특정 샘플에서 발견된 총 결함 개수 측정
    • Opportunities(기회 수) 측정: 한 개 제품에서 발생할 수 있는 결함의 총 개수 측정
    • Units(샘플 크기) 결정: 검사한 총 제품 개수 측정
      • DPMO = (총 결함 수 / 총 검사단위 * 단위 당 기회수)*1000000
  • 벤치마킹: 동일 업계의 최상위 기업과 비교하여 DPMO 수준을 평가하고 개선 목표 설정

 

3) Analyze: 원인 분석 및 문제의 핵심 요소 파악

원인 - 결과 분석(Fishbone Diagram,5 Why 기법 활용)

 

Fishbone Diagram

  • 문제(결함 또는 프로세스 개선 필요 사항)의 근본 원인을 파악하기 위해 사용되는 시각적 도구
  • 주로 5M1E(Man,Machine,Measure,Method,Material,Environment) 6가지 요소를 기준으로 원인 분류

 

5 Why 기법

  • 특정 문제의 근본 원인을 찾기 위해 왜? 질문ㅇ르 5번 반복
  • ex)
  • 왜 제품 불량 증가함? - 기계 오작동
  • 왜 기계 오작동? - 정기 점검 부족
  • 왜 점검 부족? - 유지보수 일정 연기
  • 왜 일정 연기됨? - 관리자 인력 계획 부족
  • 왜 인력 부족? - 관리자의 인력 계획 부족
  • 화난 여자친구 같네

 

프로세스 통계 분석(ANOVA, 회귀 분석 등 활용)

  • ANOVA(ANalysis Of VArience, 분산 분석)
    • 여러 그룹 간 평균 차이가 통게적으로 유의미한지 분석
    • 공정 개선 후  A, B, C 공장에서 생산된 제품의 불량률이 통계적으로 차이가 있는지 분석 가능
  • 회귀 분석
    • 변수들 간 관계를 분석하여 특정 변수가 결과에 미치는 영향을 정량적으로 평가하는 기법
    • 선형 회귀, 다중 회귀 등등

 

 

4. Improve(개선) 프로세스 개선 및 최적화 실행

DOE: 실험 설계를 통한 최적화

  • 실험 설계는 여러 변수들이 결과에 미치는 영향을 체계적으로 분석하여 최적의 조건을 찾는 방법론
  • 실험 설게를 활용하면 공정을 변경하기 전에 다양한 변수 조합을 검토하여 최상의 성능을 도출 가능
    • 완전 요인 실험(Full Factorial Design): 모든 요인 조합을 실험하여 최적 조합을 찾음
    • 부분 요인 실험(Fractional Factorial Design): 중요한 변수만 실험아셔 실험 비용과 시간을 절감
    • 반응 표면 방법(Response Surface Methodology, RSM): 최적의 조합을 찾기 위한 고급 기법

 

Lean 기법(낭비 제거, 속도 개선) 적용

  • Lean 기법은 불필요한 낭비를 제거, 공정을 효율적으로 운영하기 위한 품질 개선 전략
  • 7가지 낭비 요소(7 Waste, Muda) 제거
    • 과잉 생산(Overproduction): 실제 필요 이상으로 생산하는 낭비
    • 대기 시간(Wating): 공정 대기 시간으로 발생하는 비효율
    • 불필요한 운반(Transportation): 과도한 자재 이동으로 인한 낭비
    • 과도한 처리(Over-processing): 필요 이상으로 복잡한 공정을 적용하는 문제
    • 재고(Inventory): 과도한 원자재 및 제품 재고 보유로 인한 비용 증가
    • 불량(Defects): 품질 문제로 인해 추가적인 재작업이 필욯나 경우
    • 불필요한 동작(Motion): 작업자가 불필요한 움직임을 해야 하는 경우
  • Lean 도구 및 기법
    • 5S(정리, 정돈, 청소, 청결, 습관화): 3정 5S의 그 5S다. 다 일본어 기반임. 작업 환경을 정리하여 생산성을 높이는 방법
    • 칸반 시스템: 시각적 관리 도구를 활용하여 생산 흐름을 최적화
    • 가치 흐름 분석(Value Stream mapping, VSM) 프로세스 단계 별 낭비를 분석하여 개선 기회 도출

 

 

 

5. Control: 개선된 공정을 유지하고 지속적인 관리 수행

  • SPC 활용하여 품질 변동 모니터링
  • SOP 문서화 및 교육

 

Six Sigma 조직 역할

  • Champion: 최고 경영진 및 프로젝트 후원자, 전략적 방향 설정
  • Master Black Belt (MBB): Six Sigma 전문가, 전체 프로젝트 코칭 및 교육 담당
  • Black Belt (BB): 프로젝트 리더, 데이터 분석 및 개선 활동 주도
  • Green Belt (GB): 팀 멤버, 개선 프로젝트를 지원하는 역할 수행
  • Yellow Belt (YB): 기본 개념을 이해하고 간단한 프로젝트에 참여
    시그마 수준 불량률(%) DPMO
    1시그마 30.85% 691,462
    2시그마 4.55% 308,537
    3시그마 0.27% 66,807
    4시그마 0.0063% 6,210
    5시그마 0.00003% 233
    6시그마 0.00000034% 3.4

 

3. SPC의 핵심 개념

공정 변동의 유형

1. 자연 변동(Common Cause Variation)

  • 공정에서 본질적으로 발생할 수 밖에 없는 변동
  • 공정이 안정적이고 정상적으로 운영되는 경우에도 발생하는 변동, 장기적인 개선을 통해 최소화 할 수 있음.

 

  • 원인:
    • 기계의 마모, 노후
    • 사람이 피곤할 수도 있지
    • 온도, 습도 변화

 

  • 특징:
    • 예측 가능, 일정 범위 내에서 변동
    • SPC 차트에서 중심선을 기준으로 랜덤하게 분포하는 패턴을 보임
    • 제거할 수는 없지만 지속적인 개선을 통하여 최소화 가능

 

  • 해결 방법
    • 지속적인 유지 보수 및 예방적 관리
    • 공정 최적화 및 작업 표준화
    • 장기적인 개선 활동 적용

 

2. 특정 변동(Assignable Cause Variation)

  • 공정 내에서 특정 원인으로 발생하는 비상식적인 변동
  • 갑작스럽게 발생하며, 원인ㅇ르 찾고 해결하지 않으면 ㅎ품질 문제를 유발할 수 있음

 

  • 원인:
    • 작업자의 실수 또는 부적절한 조작
    • 기계 오작동, 센서 오류
    • 원자재 품질 문제
    • 급격한 환경 변화

 

  • 특징:
    • 예측 불가, 갑작스럽게 나타남
    • SPC 차트에서 관리 한계를 벗어나는 패턴을 보임(특정 데이터가 UCL 혹은 LCL을 초과)
    • 원인을 신속히 찾아 해결

 

  • 해결:
    • 공정 내 주요 변수 모니터링 및 실시간 감지 시스템 도입
    • 문제 발생 시 근본적 원인 분석(5 Why, Fishbone Diagram)
    • 작업자 교육 및 품질 관리 절차 강화

 

관리도 종류

  • X-R 관리도 : 평균(X 바)와 범위(R)을 이용하여 변동 모니터링
  • X-S 관리도: 평균(X 바)와 표준편차(S)을 이용하여 변동 모니터링
  • P 관리도: 불량률(비율) 모니터링
  • C 관리도: 개별 공정에서 발생하는 결함 갯수를 모니터링

 

 

 

 

 

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

TIL_251224  (0) 2025.12.24
TIL_251223  (1) 2025.12.23
TIL_251219  (1) 2025.12.19
TIL_251218  (1) 2025.12.18
TIL_251217  (0) 2025.12.17