Today I learned
1. 대시보드 프로젝트 진행(~12.17)
Machine Learning 기반 공정 이상 예측 & Streamlit Dashboard 구성 지식 정리
1. Feature Importance 해석에 대한 정확한 기준
핵심 개념
- RandomForest에서 상위 중요 변수로 확인된 항목들
- 시간 변화량(초), 최종두께
- ampere_lag1
- 전류 이동평균 / 전압 이동평균
- 공정 데이터에서 **불량을 구분하는 핵심 신호는 평균값이 아니라 “변동성·변화량·직전 영향(lag)”**임.
중요 포인트
- Lag 변수: 시점 간 영향력을 반영해 패턴 기반 데이터에서 높은 설명력을 가짐.
- 이동평균/변화량(diff): 공정의 안정성/불안정성을 가장 직접적으로 반영.
- Feature Importance는 단순 수치가 아니라 공정 물리와 연계해서 해석해야 의미가 생긴다.
2. Streamlit에서 ML 결과물 로딩 구조
핵심 구조
- 모델 학습은 로컬에서 수행하고, 배포용 Streamlit에서는 pkl + json 결과만 로드한다.
- 구성 예:
- model.pkl → 학습된 모델
- meta.json → accuracy, threshold, classification report, feature importance
왜 이렇게 해야 하는가
- Streamlit Cloud는 학습 리소스가 부족함 → 재학습은 비효율적.
- 사전에 학습된 결과를 불러오는 방식이 속도·안정성·재현성에서 가장 우수.
- 배포 환경에서 ML 추론만 수행하면 되므로 운영구조가 단순해짐.
3. Streamlit Dashboard UI 구성 원칙
표현 방식에 대한 기준
- classification_report는 **텍스트가 아니라 표 형태(DataFrame 변환)**로 배치해야 가독성이 높음.
- confusion matrix는
- 글씨 크기: annot_kws={"size": 10~12, "weight": "bold"}
- 지나친 확대/축소는 정보 왜곡 → 적절한 비율 유지가 핵심.
대시보드 페이지 구성 원칙
- 필수 지표(KPI)는 상단에 배치
- Accuracy / Precision / Recall / F1 Score 등
- 세부 지표는 오른쪽 또는 하단에 배치
- Confusion Matrix, Feature Importance
- 페이지가 비어 보이면 신뢰성을 떨어뜨림 → 정보 밀도를 안정적으로 유지해야 함
4. 모델 해석 관련 기술적 인사이트
RandomForest의 Feature Importance 분산
- Feature 수가 많아지면 각 변수의 importance는 분산되는 것이 정상.
- RF는 파생변수가 많을수록 “해석력”은 떨어지지만
LGBM은 많은 feature에서도 구조적으로 효과가 유지됨.
공정 패턴 데이터의 특성
- 평균/최소/최대처럼 단일 통계는 패턴 정보를 손실시킴.
- 패턴 기반 불량 예측에서는 다음이 핵심:
- 변화량(diff)
- 기울기(slope)
- 이동평균(rolling mean)
- lag 특성
이 변수들은 “비정상적인 공정 흐름”을 직접적으로 포착하는 역할을 한다.
'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글
| TIL_251215 (0) | 2025.12.15 |
|---|---|
| TIL_251212 (0) | 2025.12.12 |
| TIL_251208 (0) | 2025.12.08 |
| TIL_251205 (0) | 2025.12.05 |
| TIL_251204 (0) | 2025.12.04 |