Today I learned
1. QAQC 문제풀이 가이드
1) 점수 등급 판별기
2) 1부터 100까지 모든 정수의 합
3) 구구단을 외자
4) 원의 넓이 구하기
5) 둘 중 누가 더 커?
6) 환율 계산
2. (라이브세션) Python 라이브러리 세션 1회차
1) 리스트 컴프리헨션
기존의 for 문을 한 줄로 줄여주는 문법임
코드가 짧고 직관적이기 때문에 데이터 변환과 필터링에 유용함
ex-1) 리스트 컴프리헨션을 사용하지 않았을 떄
ex-2) 리스트 컴프리헨션 사용
2) 리스트 슬라이싱
리스트의 특정 부분을 잘라내는 기능
문법: 리스트[start:end:step]
numbers = [5, 10, 15, 20, 25, 30, 35]
3) lambda 함수
이름 없는 한줄짜리 함수
ex) 일반 함수와 lambda의 비교
4) map
리스트의 각 원소에 함수를 적용해서 새로운 결과를 만들어주는 내장 함수
결과는 즉시 리스트가 아니라 'map object(이터레이터) 에서 list()로 변환해야 확인이 가능함
※이터레이터(iterator): 한번에 하나씩 값을 꺼낼 수 있는 객체, for 문으로 순회할 수 있는 객체
5) filter
function이 True인 원소만 남김, 역시 list()로 변환 필요
6) 모듈 만들기
해당 구절을 추가해야 함. 파일을 독립적으로 실행했을 때만 실행하고, import 될 때는 건너뛰라는 의미
ex-1) 모듈 만들기
ex-2) 모듈 불러오기
7) QAQC 실습
3. (라이브세션) [데이터 전처리 & 시각화] Pandas 심화
1) 기초 통계 분석
describe(): 데이터의 분포와 핵심 경향을 파악할 수 있는 핵심 메소드
ex-1)
| PassengerId | Survived | Pclass | Age | SibSp | Parch | Fare | |
| count | 891.000000 | 891.000000 | 891.000000 | 714.000000 | 891.000000 | 891.000000 | 891.000000 |
| mean | 446.000000 | 0.383838 | 2.308642 | 29.699118 | 0.523008 | 0.381594 | 32.204208 |
| std | 257.353842 | 0.486592 | 0.836071 | 14.526497 | 1.102743 | 0.806057 | 49.693429 |
| min | 1.000000 | 0.000000 | 1.000000 | 0.420000 | 0.000000 | 0.000000 | 0.000000 |
| 25% | 223.500000 | 0.000000 | 2.000000 | 20.125000 | 0.000000 | 0.000000 | 7.910400 |
| 50% | 446.000000 | 0.000000 | 3.000000 | 28.000000 | 0.000000 | 0.000000 | 14.454200 |
| 75% | 668.500000 | 1.000000 | 3.000000 | 38.000000 | 1.000000 | 0.000000 | 31.000000 |
| max | 891.000000 | 1.000000 | 3.000000 | 80.000000 | 8.000000 | 6.000000 | 512.32920 |
※ age의 count가 다른 count 들과 같지 않은 것으로 보아 age에 결측치가 있음을 알 수 있음
ex-2) 더 상세한 백분위로 분석
ex-3) 범주형 데이터 확인 방법
| PassengerId | Survived | Pclass | Name | Sex | Age | SibSp | Parch | Ticket | Fare | Cabin | Embarked | |
| count | 891.000000 | 891.000000 | 891.000000 | 891 | 891 | 714.000000 | 891.000000 | 891.000000 | 891 | 891.000000 | 204 | 889 |
| unique | NaN | NaN | NaN | 891 | 2 | NaN | NaN | NaN | 681 | NaN | 147 | 3 |
| top | NaN | NaN | NaN | Dooley, Mr. Patrick | male | NaN | NaN | NaN | 347082 | NaN | G6 | S |
| freq | NaN | NaN | NaN | 1 | 577 | NaN | NaN | NaN | 7 | NaN | 4 | 644 |
| mean | 446.000000 | 0.383838 | 2.308642 | NaN | NaN | 29.699118 | 0.523008 | 0.381594 | NaN | 32.204208 | NaN | NaN |
| std | 257.353842 | 0.486592 | 0.836071 | NaN | NaN | 14.526497 | 1.102743 | 0.806057 | NaN | 49.693429 | NaN | NaN |
| min | 1.000000 | 0.000000 | 1.000000 | NaN | NaN | 0.420000 | 0.000000 | 0.000000 | NaN | 0.000000 | NaN | NaN |
| 25% | 223.500000 | 0.000000 | 2.000000 | NaN | NaN | 20.125000 | 0.000000 | 0.000000 | NaN | 7.910400 | NaN | NaN |
| 50% | 446.000000 | 0.000000 | 3.000000 | NaN | NaN | 28.000000 | 0.000000 | 0.000000 | NaN | 14.454200 | NaN | NaN |
| 75% | 668.500000 | 1.000000 | 3.000000 | NaN | NaN | 38.000000 | 1.000000 | 0.000000 | NaN | 31.000000 | NaN | NaN |
| max | 891.000000 | 1.000000 | 3.000000 | NaN | NaN | 80.000000 | 8.000000 | 6.000000 | NaN | 512.329200 | NaN | NaN |
※ unique: 고유한 값의 갯수, count: 결측치가 아닌 갯수, top: 가장 빈번한 값(최빈값), frequent: 얼마나 자주 나왔는가?(최빈값의 빈도)
ex-4) 범주형 데이터 분석
ex-5) 왜도와 첨도 계산하기
중요) 상관관계 분석
상관관계: 두 변수가 함께 변하는 정도를 나타냄, 인과관계를 의미하는 것이 아님.
| Survived | Pclass | Age | SibSp | Parch | Fare | |
| Survived | 1.000000 | -0.338481 | -0.077221 | -0.035322 | 0.081629 | 0.257307 |
| Pclass | -0.338481 | 1.000000 | -0.369226 | 0.083081 | 0.018443 | -0.549500 |
| Age | -0.077221 | -0.369226 | 1.000000 | -0.308247 | -0.189119 | 0.096067 |
| SibSp | -0.035322 | 0.083081 | -0.308247 | 1.000000 | 0.414838 | 0.159651 |
| Parch | 0.081629 | 0.018443 | -0.189119 | 0.414838 | 1.000000 | 0.216225 |
| Fare | 0.257307 | -0.549500 | 0.096067 | 0.159651 | 0.216225 | 1.000000 |
※ 0.7 이상: 매우 강한 상관관계, 0.3~0.7: 강한 상관관계, 0.1~0.3: 중간 상간관계, 0.1 미만: 약한ㅅ ㅏㅇ관관계
시각화하기

무슨 일이 있어도 상관관계 매트릭스는 외워야 한다!!
3. 데이터 전처리 & 시각화 2주차
1) 데이터 전처리란
내가 원하는 데이터를 보기 위해 하는 모든 활동
Why??
A1. 데이터는 생각보다 지저분한 형태로 산포되어있음.....
A2. GIGO(Garbage In, Garbage Out)
How??
방향성을 가지고 접근하자!
데이터를 통해 무엇을 확인할 것인지,
어떤 의사결정을 위해 필요한지,
무엇을 얻고자 하는지
2) Excel과 비교한 pandas의 장점
- 자동화 프로그래밍 기능
- 대용량 데이터 처리에서 엑셀보다 빠른 처리 속도
- 복잡한 데이터 처리 및 분석이 가능
- 확장성과 유연성이 뛰어남
'빅데이터 QAQC_3기 > 빅데이터 QAQC_3기 TIL' 카테고리의 다른 글
| TIL_250929 (0) | 2025.09.29 |
|---|---|
| TIL_250926 (0) | 2025.09.26 |
| TIL_250924 (0) | 2025.09.24 |
| TIL_250923 (0) | 2025.09.23 |
| TIL_250922 (2) | 2025.09.22 |