빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL

TIL_251211

usungusung 2025. 12. 11. 21:47

Today I learned

 

 

1. 대시보드 프로젝트 진행(~12.17)

Machine Learning 기반 공정 이상 예측 & Streamlit Dashboard 구성 지식 정리


1. Feature Importance 해석에 대한 정확한 기준

핵심 개념

  • RandomForest에서 상위 중요 변수로 확인된 항목들
    • 시간 변화량(초), 최종두께
    • ampere_lag1
    • 전류 이동평균 / 전압 이동평균
  • 공정 데이터에서 **불량을 구분하는 핵심 신호는 평균값이 아니라 “변동성·변화량·직전 영향(lag)”**임.

중요 포인트

  • Lag 변수: 시점 간 영향력을 반영해 패턴 기반 데이터에서 높은 설명력을 가짐.
  • 이동평균/변화량(diff): 공정의 안정성/불안정성을 가장 직접적으로 반영.
  • Feature Importance는 단순 수치가 아니라 공정 물리와 연계해서 해석해야 의미가 생긴다.

2. Streamlit에서 ML 결과물 로딩 구조

핵심 구조

  • 모델 학습은 로컬에서 수행하고, 배포용 Streamlit에서는 pkl + json 결과만 로드한다.
  • 구성 예:
    • model.pkl → 학습된 모델
    • meta.json → accuracy, threshold, classification report, feature importance

왜 이렇게 해야 하는가

  • Streamlit Cloud는 학습 리소스가 부족함 → 재학습은 비효율적.
  • 사전에 학습된 결과를 불러오는 방식이 속도·안정성·재현성에서 가장 우수.
  • 배포 환경에서 ML 추론만 수행하면 되므로 운영구조가 단순해짐.

3. Streamlit Dashboard UI 구성 원칙

표현 방식에 대한 기준

  • classification_report는 **텍스트가 아니라 표 형태(DataFrame 변환)**로 배치해야 가독성이 높음.
  • confusion matrix는
    • 글씨 크기: annot_kws={"size": 10~12, "weight": "bold"}
    • 지나친 확대/축소는 정보 왜곡 → 적절한 비율 유지가 핵심.

대시보드 페이지 구성 원칙

  • 필수 지표(KPI)는 상단에 배치
    • Accuracy / Precision / Recall / F1 Score 등
  • 세부 지표는 오른쪽 또는 하단에 배치
    • Confusion Matrix, Feature Importance
  • 페이지가 비어 보이면 신뢰성을 떨어뜨림 → 정보 밀도를 안정적으로 유지해야 함

4. 모델 해석 관련 기술적 인사이트

RandomForest의 Feature Importance 분산

  • Feature 수가 많아지면 각 변수의 importance는 분산되는 것이 정상.
  • RF는 파생변수가 많을수록 “해석력”은 떨어지지만
    LGBM은 많은 feature에서도 구조적으로 효과가 유지됨.

공정 패턴 데이터의 특성

  • 평균/최소/최대처럼 단일 통계는 패턴 정보를 손실시킴.
  • 패턴 기반 불량 예측에서는 다음이 핵심:
    • 변화량(diff)
    • 기울기(slope)
    • 이동평균(rolling mean)
    • lag 특성

이 변수들은 “비정상적인 공정 흐름”을 직접적으로 포착하는 역할을 한다.

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

TIL_251215  (0) 2025.12.15
TIL_251212  (0) 2025.12.12
TIL_251208  (0) 2025.12.08
TIL_251205  (0) 2025.12.05
TIL_251204  (0) 2025.12.04