728x90
반응형

파이썬(Python) 데이터 처리 입문

  • 파이썬 데이터 처리는 데이터 분석, 정리, 시각화 등 다양한 작업을 효율적으로 수행하는 데 사용됩니다.
  • 주요 라이브러리와 함께 처리 단계를 간략히 설명드리겠습니다.


1. 데이터 읽기

  • 데이터는 CSV, Excel, SQL, JSON 등 다양한 소스에서 로드할 수 있습니다.

  • pandas : 데이터 프레임 형태로 데이터를 다루는 라이브러리.

      import pandas as pd
      df = pd.read_csv('data.csv')  # CSV 파일 로드
    

  • openpyxl : Excel 데이터 로드.
      df = pd.read_excel('data.xlsx')
    

  • sqlite3 : SQL 데이터베이스 연동.
      import sqlite3
      conn = sqlite3.connect('data.db')
      df = pd.read_sql('SELECT * FROM table_name', conn)
    


2. 데이터 탐색 및 정리

  • 로드된 데이터를 탐색하고, 결측치 또는 이상치를 처리합니다.

  • 데이터 탐색:

      print(df.head())  # 상위 5개 행 출력
      print(df.info())  # 데이터 정보 확인
      print(df.describe())  # 통계 요약
    

  • 결측치(Missing Value) 처리:
    • 결측치: 데이터 수집 과정에서 누락되거나 기록되지 않은 값

      df.fillna(0, inplace=True)  # 결측값을 0으로 채우기
      df.dropna(inplace=True)  # 결측값 포함 행 삭제
    

  • 데이터 타입 변경:
      df['column_name'] = df['column_name'].astype(float)  # 데이터 타입 변환
    


3. 데이터 변환

  • 데이터를 분석 또는 모델링하기 쉽게 가공합니다.

  • 열 추가 및 수정:

      df['new_column'] = df['existing_column'] * 2  # 열 값 수정
    

  • 그룹화 및 요약:
      grouped = df.groupby('category_column').mean()  # 카테고리별 평균
    

  • 필터링 및 슬라이싱:
      filtered = df[df['value_column'] > 10]  # 조건에 맞는 데이터 필터링
    


4. 데이터 시각화

  • 시각화를 통해 데이터를 이해하고 통찰을 얻습니다.

  • matplotlib : 데이터 시각화를 위해 그래프와 차트 라이브러리

      import matplotlib.pyplot as plt
      df['value_column'].plot(kind='line')  # 선 그래프
      plt.show()
    

  • seaborn : 통계적 데이터 시각화 라이브러리
     import seaborn as sns
     sns.barplot(x='category_column', y='value_column', data=df)  # 막대 그래프
     plt.show()
    


5. 고급 처리

  • 머신러닝, 시계열 분석, 최적화 등의 작업도 수행 가능합니다.

  • scikit-learn : 머신러닝 모델 구축.

      from sklearn.model_selection import train_test_split
      X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
    

  • statsmodels : 통계적 분석.
      import statsmodels.api as sm
      model = sm.OLS(y, X).fit()
      print(model.summary())
    


  • 이 외에도 파이썬 데이터 처리를 위한 다양한 라이브러리와 도구가 있어 유연하고 강력하게 작업할 수 있습니다.
728x90
반응형

+ Recent posts