파이썬의 기초 강좌: 웹 스크래핑과 데이터 분석 프로젝트

2024. 4. 9. 14:51파이썬/7.파이썬 프로그래밍 실전 프로젝트

반응형

안녕하세요 여러분! 파이썬의 기초 강좌 시리즈  포스팅을 시작하겠습니다. 이번에는 파이썬을 활용한 웹 스크래핑과 데이터 분석 프로젝트를 진행해보겠습니다. 이 프로젝트를 통해 파이썬의 다양한 기능을 배우고, 실제 데이터를 다루면서 익힐 수 있을 것입니다.

1. 프로젝트 준비하기

먼저, 웹 스크래핑을 위해 필요한 라이브러리인 Requests와 BeautifulSoup를 설치해야 합니다. 아래 명령어를 사용하여 설치할 수 있습니다

pip install requests beautifulsoup4

.

2. 웹 페이지 데이터 수집하기

이제 웹 페이지에서 데이터를 수집하는 코드를 작성해보겠습니다. 예를 들어, 구글 홈페이지의 타이틀을 가져오는 코드는 다음과 같습니다.

import requests
from bs4 import BeautifulSoup

url = 'https://www.google.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
print("구글 홈페이지 타이틀:", soup.title.text)

위 코드는 구글 홈페이지의 타이틀을 가져와 출력하는 예제입니다. Requests를 사용하여 웹 페이지에 GET 요청을 보내고, BeautifulSoup를 사용하여 HTML 코드를 파싱하여 타이틀을 추출합니다.

데이터 분석을 위한 프로젝트

두 번째 프로젝트는 간단한 데이터 분석을 위한 프로젝트입니다. 이 프로젝트를 통해 Pandas와 Matplotlib 등의 라이브러리를 사용하여 데이터를 처리하고 시각화하는 방법을 익힐 수 있습니다.

1. 데이터 수집 및 준비하기

데이터를 수집하고 분석하기 위해 필요한 라이브러리를 설치하고 데이터를 준비해야 합니다. 예를 들어, 간단한 CSV 파일을 사용하겠습니다.

2. 데이터 분석하기

Pandas를 사용하여 데이터를 읽고 분석하는 코드를 작성해보겠습니다. 아래는 CSV 파일을 읽고 데이터를 출력하는 예제 코드입니다.

import pandas as pd

# CSV 파일 읽기
data = pd.read_csv('data.csv')

# 데이터 출력
print("데이터 일부분 출력:")
print(data.head())

위 코드는 CSV 파일을 읽고 데이터를 출력하는 예제입니다.

# 필요한 라이브러리 가져오기
import requests  # 웹 페이지에 접근하기 위한 라이브러리
from bs4 import BeautifulSoup  # 웹 페이지에서 데이터를 추출하기 위한 라이브러리
import pandas as pd  # 데이터를 처리하기 위한 라이브러리
import matplotlib.pyplot as plt  # 데이터를 시각화하기 위한 라이브러리

# 웹 스크래핑 프로젝트 시작

# 1. 웹 페이지 데이터 수집하기

# 구글 홈페이지에서 데이터를 가져와서 파싱한다.
url = 'https://www.google.com'
response = requests.get(url)  # 해당 URL에 GET 요청을 보낸다.
soup = BeautifulSoup(response.text, 'html.parser')  # 웹 페이지의 HTML 코드를 BeautifulSoup 객체로 파싱한다.
print("구글 홈페이지 타이틀:", soup.title.text)  # 파싱한 HTML 코드에서 타이틀을 추출하여 출력한다.

# 데이터 분석을 위한 프로젝트 시작

# 1. 데이터 수집 및 준비하기

# 예제를 위해 간단한 CSV 파일을 만들어서 사용한다.
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Age': [25, 30, 35, 40, 45],
    'Score': [85, 90, 88, 92, 87]
}
df = pd.DataFrame(data)  # 데이터프레임 생성
df.to_csv('data.csv', index=False)  # 데이터프레임을 CSV 파일로 저장

# 2. 데이터 분석하기

# CSV 파일을 읽어와 데이터를 출력한다.
data = pd.read_csv('data.csv')
print("데이터 일부분 출력:")
print(data.head())  # 데이터프레임의 첫 5개 행을 출력한다.

# 데이터를 시각화한다.
plt.plot(data['Name'], data['Score'], marker='o')  # 이름과 점수에 대한 선 그래프를 그린다.
plt.xlabel('Name')  # x축 레이블 설정
plt.ylabel('Score')  # y축 레이블 설정
plt.title('Score by Name')  # 그래프 제목 설정
plt.grid(True)  # 그리드 표시
plt.show()  # 그래프를 화면에 출력

이 코드는 웹 스크래핑과 데이터 분석을 위한 프로젝트를 실행하는데 필요한 모든 단계를 포함하고 있습니다. 코드의 각 부분에 대한 자세한 설명은 주석으로 제공되어 있습니다. 이를 통해 웹 스크래핑 및 데이터 분석을 시작하기 위한 기초가 마련되었습니다.

이번 포스팅에서는 파이썬을 사용하여 웹 스크래핑과 데이터 분석을 위한 간단한 프로젝트를 진행해보았습니다. 웹 스크래핑과 데이터 분석을 통해 파이썬의 다양한 기능을 활용하는 방법을 배우고 익혔습니다. 다음 포스팅에서는 더욱 다양한 주제를 다뤄보겠습니다.

파이썬, 웹 스크래핑, 데이터 분석, 프로젝트, 프로그래밍, 개발 #태그

다음 포스팅에서도 함께해주세요! 🐍✨

반응형