TIL_251211

빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL

TIL_251211

usungusung 2025. 12. 11. 21:47

Today I learned

1. 대시보드 프로젝트 진행(~12.17)

Machine Learning 기반 공정 이상 예측 & Streamlit Dashboard 구성 지식 정리

1. Feature Importance 해석에 대한 정확한 기준

핵심 개념

RandomForest에서 상위 중요 변수로 확인된 항목들
- 시간 변화량(초), 최종두께
- ampere_lag1
- 전류 이동평균 / 전압 이동평균
공정 데이터에서 **불량을 구분하는 핵심 신호는 평균값이 아니라 “변동성·변화량·직전 영향(lag)”**임.

중요 포인트

Lag 변수: 시점 간 영향력을 반영해 패턴 기반 데이터에서 높은 설명력을 가짐.
이동평균/변화량(diff): 공정의 안정성/불안정성을 가장 직접적으로 반영.
Feature Importance는 단순 수치가 아니라 공정 물리와 연계해서 해석해야 의미가 생긴다.

2. Streamlit에서 ML 결과물 로딩 구조

핵심 구조

모델 학습은 로컬에서 수행하고, 배포용 Streamlit에서는 pkl + json 결과만 로드한다.
구성 예:
- model.pkl → 학습된 모델
- meta.json → accuracy, threshold, classification report, feature importance

왜 이렇게 해야 하는가

Streamlit Cloud는 학습 리소스가 부족함 → 재학습은 비효율적.
사전에 학습된 결과를 불러오는 방식이 속도·안정성·재현성에서 가장 우수.
배포 환경에서 ML 추론만 수행하면 되므로 운영구조가 단순해짐.

3. Streamlit Dashboard UI 구성 원칙

표현 방식에 대한 기준

classification_report는 **텍스트가 아니라 표 형태(DataFrame 변환)**로 배치해야 가독성이 높음.
confusion matrix는
- 글씨 크기: annot_kws={"size": 10~12, "weight": "bold"}
- 지나친 확대/축소는 정보 왜곡 → 적절한 비율 유지가 핵심.

대시보드 페이지 구성 원칙

필수 지표(KPI)는 상단에 배치
- Accuracy / Precision / Recall / F1 Score 등
세부 지표는 오른쪽 또는 하단에 배치
- Confusion Matrix, Feature Importance
페이지가 비어 보이면 신뢰성을 떨어뜨림 → 정보 밀도를 안정적으로 유지해야 함

4. 모델 해석 관련 기술적 인사이트

RandomForest의 Feature Importance 분산

Feature 수가 많아지면 각 변수의 importance는 분산되는 것이 정상.
RF는 파생변수가 많을수록 “해석력”은 떨어지지만
LGBM은 많은 feature에서도 구조적으로 효과가 유지됨.

공정 패턴 데이터의 특성

평균/최소/최대처럼 단일 통계는 패턴 정보를 손실시킴.
패턴 기반 불량 예측에서는 다음이 핵심:
- 변화량(diff)
- 기울기(slope)
- 이동평균(rolling mean)
- lag 특성

이 변수들은 “비정상적인 공정 흐름”을 직접적으로 포착하는 역할을 한다.

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

TIL_251215 (0)	2025.12.15
TIL_251212 (0)	2025.12.12
TIL_251208 (0)	2025.12.08
TIL_251205 (0)	2025.12.05
TIL_251204 (0)	2025.12.04

현재글TIL_251211

usungusung 님의 블로그

usungusung 님의 블로그 입니다.

X,

Today :
Yesterday :

티스토리툴바