728x90
반응형
- 파이썬 데이터 처리는 데이터 분석, 정리, 시각화 등 다양한 작업을 효율적으로 수행하는 데 사용됩니다.
- 주요 라이브러리와 함께 처리 단계를 간략히 설명드리겠습니다.
-
데이터는
CSV
,Excel
,SQL
,JSON
등 다양한 소스에서 로드할 수 있습니다. -
pandas : 데이터 프레임 형태로 데이터를 다루는 라이브러리.
import pandas as pd df = pd.read_csv('data.csv') # CSV 파일 로드
- openpyxl : Excel 데이터 로드.
df = pd.read_excel('data.xlsx')
- sqlite3 : SQL 데이터베이스 연동.
import sqlite3 conn = sqlite3.connect('data.db') df = pd.read_sql('SELECT * FROM table_name', conn)
-
로드된 데이터를 탐색하고, 결측치 또는 이상치를 처리합니다.
-
데이터 탐색:
print(df.head()) # 상위 5개 행 출력 print(df.info()) # 데이터 정보 확인 print(df.describe()) # 통계 요약
- 결측치(
Missing Value
) 처리:-
결측치: 데이터 수집 과정에서 누락되거나 기록되지 않은 값
df.fillna(0, inplace=True) # 결측값을 0으로 채우기 df.dropna(inplace=True) # 결측값 포함 행 삭제
-
- 데이터 타입 변경:
df['column_name'] = df['column_name'].astype(float) # 데이터 타입 변환
-
데이터를 분석 또는 모델링하기 쉽게 가공합니다.
-
열 추가 및 수정:
df['new_column'] = df['existing_column'] * 2 # 열 값 수정
- 그룹화 및 요약:
grouped = df.groupby('category_column').mean() # 카테고리별 평균
- 필터링 및 슬라이싱:
filtered = df[df['value_column'] > 10] # 조건에 맞는 데이터 필터링
-
시각화를 통해 데이터를 이해하고 통찰을 얻습니다.
-
matplotlib : 데이터 시각화를 위해 그래프와 차트 라이브러리
import matplotlib.pyplot as plt df['value_column'].plot(kind='line') # 선 그래프 plt.show()
- seaborn : 통계적 데이터 시각화 라이브러리
import seaborn as sns sns.barplot(x='category_column', y='value_column', data=df) # 막대 그래프 plt.show()
-
머신러닝, 시계열 분석, 최적화 등의 작업도 수행 가능합니다.
-
scikit-learn : 머신러닝 모델 구축.
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
- statsmodels : 통계적 분석.
import statsmodels.api as sm model = sm.OLS(y, X).fit() print(model.summary())
- 이 외에도 파이썬 데이터 처리를 위한 다양한 라이브러리와 도구가 있어 유연하고 강력하게 작업할 수 있습니다.
728x90
반응형
'Python' 카테고리의 다른 글
파이썬(Python) 집합(set) (0) | 2024.12.03 |
---|---|
자연어 요구사항으로 Google Protobuf 파일 자동 생성하기: OpenAI API 활용 및 설계 이해 (0) | 2024.12.03 |
파이썬 (Python) 웹 스크래핑 (Web Scraping) 입문 (0) | 2024.11.28 |
골드버그 장치: 의미 없는 코드의 향연 (0) | 2024.11.20 |
python glob (0) | 2024.11.19 |