Today I learned
1. 최종 프로젝트
주제 변경
데이터 확인 및 전처리 진행 중
2. [라이브세션] 생성형 AI를 활용한 실전 리포팅 및 AI 서비스 개발_6회차
1. 왜 RAG(Retrieval Augmented Generation)가 필요한가?
- 기존의 LLM(거대언어모델)은 뛰어난 능력을 가졌지만, 명확한 한계점이 존재합니다.
- 할루시네이션(Hallucination): 모르는 내용도 사실인 것처럼 그럴듯하게 거짓말을 합니다.
- 지식 단절(Knowledge Cutoff): 학습 시점 이후의 최신 정보는 알지 못합니다.
- 데이터 보안: 기업 내부의 민감한 데이터를 LLM 학습에 직접 사용할 수 없습니다.
RAG(검색 증강 생성)는 이러한 문제를 해결하기 위해, LLM이 답변하기 전에 신뢰할 수 있는 외부 지식 저장소(Knowledge Base)를 먼저 검색(Retrieval)하고, 그 정보를 참고하여 답변을 생성(Generation)하는 기술
2. RAG의 핵심 작동 원리
- 수능 영어 문제를 풀 때 지문을 읽고 답을 찾는 것과 같습니다.
- 전체 데이터를 다 외우는 것이 아니라, 질문과 관련된 '핵심 문단'만 찾아내어 LLM에게 제공하는 방식입니다.
① 청킹 (Chunking)
방대한 문서를 LLM이 한 번에 처리할 수 없으므로, 의미 있는 작은 단위(Chunk)로 쪼개는 과정입니다.
주의: 쪼개진 조각은 LLM의 토큰 제한보다 작아야 합니다.
② 임베딩 (Embedding)
컴퓨터가 텍스트의 의미를 이해할 수 있도록, 문장을 '숫자 벡터(Vector)'로 변환하는 과정입니다.
예: '사과'와 '배'는 벡터 공간에서 가깝게 위치하고, '사과'와 '자동차'는 멀리 위치하게 됩니다.
③ 벡터 스토어 (Vector Store) & 코사인 유사도 (Cosine Similarity)
벡터 스토어: 임베딩된 벡터들을 저장하는 전용 데이터베이스(Chroma, Pinecone, FAISS 등)입니다.
코사인 유사도: 사용자의 질문 벡터와 문서 벡터 간의 각도를 계산하여, 가장 유사한(관련성 높은) 문서를 찾아내는 수학적 방법입니다.
3. RAG 시스템 구현 실습 (Python & LangChain)
4. 노코드(No-Code) 구현: n8n
파이썬 코딩이 어려운 경우, 워크플로우 자동화 툴인 n8n을 사용하여 노코드 방식으로도 RAG 에이전트를 구현할 수 있습니다.
Google Drive 트리거 → 파일 다운로드 → 벡터 스토어 업로드 → 챗봇 응답의 흐름을 시각적으로 연결하여 구축 가능합니다.
3. [라이브세션] 고급 통계 4회차
1. 신뢰성(Reliability)이란 무엇인가?
기존의 '품질'이 현재 시점의 불량 유무를 따진다면, '신뢰성'은 시간의 개념이 포함된 미래 지향적 품질입니다.
- 정의: 아이템이 주어진 조건과 기간 동안 요구되는 기능을 적정하게 수행할 확률
- 품질(Quality): 시간 개념 없음($t=0$), 결함 유형은 '불량(Defect)', 척도는 불량률/Cpk.
- 신뢰성(Reliability): 시간 개념 포함(수명 $t$), 결함 유형은 '고장(Failure)', 척도는 고장률/MTTF.
- 핵심: 품질은 "새 제품이 잘 작동하는가?"이고, 신뢰성은 "5년 후에도 성능이 유지되는가?"의 문제입니다
2. 왜 신뢰성이 중요한가?
- 사고 사례: 도요타 가속페달 리콜, 갤럭시노트7 배터리 발화 사건 등은 부품 신뢰성 검증 실패가 기업 가치 추락으로 이어진 대표적 사례입니다.
- 미래 모빌리티: 수소차, AAM, PBV 등 신기술의 등장과 차량 공유로 인한 가혹한 사용 환경은 더욱 높은 수준의 신뢰성을 요구합니다.
- 욕조 곡선(Bathtub Curve): 초기 고장, 우발 고장, 마모 고장을 모두 낮추어 '하키 스틱 곡선'을 만드는 것이 궁극적인 목표입니다.
3. 신뢰성 개발 프로세스 (인간의 성장 과정 비유)
신뢰성 개발 과정을 사람의 성장기에 비유하면 이해하기 쉽습니다.
- 영유아기 (목표 설정): 고객 사용 조건과 정비 데이터를 분석하여 '고장'을 정의하고 목표를 세우는 단계입니다.
- 청소년기 (시험 및 개선): 가속 스트레스 시험을 통해 고장을 재현하고 개선안을 도출합니다. 수험생이 모의고사를 보고 오답 노트로 성적을 올리는 것과 같습니다.
- 성인기 (필드 모니터링): 실제 필드 데이터를 수집하고 피드백하여 제품을 진화시키는 단계입니다.
4. 신뢰성 데이터 분석 핵심
신뢰성 분석을 위해서는 통계적 접근이 필수적입니다.
- 주요 용어:
- 고장률($\lambda$): 단위 시간당 고장 빈도
- MTTF: 평균 고장 시간 (수리 불가능 부품).
- MTBF: 평균 고장 간격 (수리 가능 부품)
- 관측 중단(Censoring): 실험 중 중단되거나 고장이 발생하지 않은 데이터도 분석에 포함해야 합니다(우측 관측 중단 등).
- 분석 방법:
- 비모수적 방법: Kaplan-Meier, Nelson 추정량 등 분포를 가정하지 않음.
- 모수적 방법: 와이블 분포, 대수정규분포 등 데이터에 가장 적합한 분포를 찾아 분석.
5. 자동차 산업의 표준: 와이블 분포 (Weibull Distribution)
자동차 부품 신뢰성 분석에 가장 널리 쓰이는 분포입니다.
특징: 'Weakest Link' 법칙(가장 약한 부품이 시스템 수명을 결정)에 근거하며, 형상 모수($\beta$)에 따라 다양한 고장 형태를 설명할 수 있습니다.
수식: $F(t) = 1 - e^{-(t/\eta)^\beta}$ (여기서 $\beta$는 형상 모수, $\eta$는 척도 모수).
- $\beta < 1$: 고장률 감소 (초기 고장)
- $\beta = 1$: 고장률 일정 (우발 고장)
- $\beta > 1$: 고장률 증가 (마모 고장)
- 형상 모수($\beta$)의 의미:
- 분석 팁: 와이블 확률지를 사용하여 곡선 데이터를 직선($Y = \beta X + b$)으로 변환하면, 기울기를 통해 모수를 쉽게 추정할 수 있습니다.
'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글
| TIL_260105 (0) | 2026.01.05 |
|---|---|
| TIL_260102 (0) | 2026.01.02 |
| TIL_251230 (1) | 2025.12.30 |
| TIL_251229 (0) | 2025.12.29 |
| TIL_251226 (1) | 2025.12.26 |