빅데이터 QAQC_3기/빅데이터 QAQC_3기 TIL

TIL_250910

usungusung 2025. 9. 10. 20:37

Today I learned

 

1. 데이터 분석 종합반(python) 1주차

 

Ch1-1~4 타이타닉 생존자의 비밀 파헤치기
- 배의 요금과 생존 사이의 상관관계

데이터 전처리: 필터 - (필드값 없음) 으로 공백란 제거하기

 
 
 
 

- XLMiner 설치하기

- XLMiner의 correlation 기능 사용하기

 

- correlation 된 기능을 토대로 차트로 시각화

-데이터 분석의 기본 구조

 1) 문제 정의 및 가설 설정

 2) 데이터 분석 기본 세팅

 3) 데이터 분석하기

 4) 분석 결과 시각화

 5) 최종 결론!

 

Ch1-5. 파이썬 기초지식 빼꼼 엿보기

- 엑셀 vs 파이썬

엑셀은 초반엔 배우기 쉬움. but, 데이터가 많아지면 느려짐, 심화과정으로 갈수록 끝이 없음

파이썬은 초반엔 벽 느껴짐. but, 데이터 수만개도 금방금방 결과 나

   

- 파이썬 라이브러리

pandas: 데이터 분석에서 사용되는 파이썬 라이브러리, 엑셀 분만 아니라 여러 형태의 데이터를 읽을 수 있으며 결측치 제거 기능 지원

metplotlib: 데이터를 시각화 해주는 라이브러리.

 

Ch1-6. Homework

"당뇨병 발병에 가장 큰 영향을 미치는 요소는 glucose 수치다"(가설)

애리조나 사막지역의 피마 원주민이 세게에서 당뇨병 발병률이 가장 높다.

Q. 피마 원주민의 당뇨병 데이터 세트를 분석하여 가설을 검증하는 시간을 가져봐라.

'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글

TIL_250916  (1) 2025.09.16
TIL_250915  (0) 2025.09.15
TIL_250912  (0) 2025.09.12
TIL_250909  (0) 2025.09.09
TIL_250908  (0) 2025.09.08