본문 바로가기
DataAnalysis

코랩(Colab) 활용 가이드: 데이터 분석과 머신 러닝을 위한 초보자용

by Head of the Laboratory 2024. 4. 12.

1. 코랩(Colab) 소개

코랩(Colaboratory)은 구글에서 제공하는 클라우드 기반의 Jupyter 노트북 환경입니다. 무료로 제공되며, 브라우저만 있으면 어디서든 접근할 수 있습니다. 코랩을 사용하면 데이터 분석, 머신 러닝, 인공 지능 등을 간편하게 개발하고 실행할 수 있습니다.

 

2. 시작하기

1. 코랩에 접속하기: colab.research.google.com
2. 구글 계정으로 로그인하기
3. "새 노트" 버튼 클릭하여 새로운 노트북 생성하기

 

3. 코랩의 기능

코드 실행: 코드 셀에 Python 코드를 입력하고 실행할 수 있습니다. 코드 셀은 Shift + Enter를 눌러 실행할 수 있습니다.
텍스트 작성: Markdown을 사용하여 텍스트 셀에 문서를 작성할 수 있습니다.
외부 라이브러리 사용: 필요한 라이브러리를 설치하고 import하여 사용할 수 있습니다.
파일 업로드 및 다운로드: 로컬 파일을 코랩에 업로드하거나, 코랩에서 생성한 파일을 다운로드할 수 있습니다.
리소스 관리: CPU, GPU, TPU 등 다양한 하드웨어 리소스를 선택하여 사용할 수 있습니다.

 

4. 코랩의 장단점

장점

무료로 제공되는 클라우드 환경

코랩은 Google에서 제공하는 서비스로, 무료로 사용할 수 있습니다. 사용자가 별도의 설정이나 설치 없이 웹 브라우저를 통해 즉시 접근할 수 있습니다.

 

다양한 라이브러리 지원(셋팅의 편리함)

코랩은 다양한 데이터 분석 및 머신 러닝 라이브러리를 지원하며,   코랩의 클라우드 환경으로 인해 다양한 라이브러리가 이미 설치가 되어있습니다. 사용하고자하는 특정 라이브러리를 별도로 설치할 필요가 없습니다.

이러한 특징으로 인해 원하는 라이브러리가 대부분 바로 적용하여 사용할 수 있습니다. 

만약 설치되어 있지 않은 라이브러리는 코드 실행 시간에 바로 설치하여 사용할 수 있습니다.


GPU 및 TPU 지원

코랩은 GPU 및 TPU와 같은 고성능 하드웨어 가속기를 제공하여 하드웨어를 따로 구매하지 않아도 되어 하드웨어 구매비용을 절감할 수 있습니다.

이러한 지원으로 인해 저사양 컴퓨터로도 대규모 분석이나, AI 관련 프로젝트 수행이 수월해집니다.


Jupyter 노트북 통합

코랩은 Jupyter 노트북 환경을 제공하여 코드 작성, 실행, 결과 확인 등을 편리하게 할 수 있습니다. 이를 통해 코드와 설명을 함께 작성하고 공유할 수 있습니다.

 

단점

제한된 리소스 및 세션 제한

무료 버전의 코랩은 제한된 하드웨어 리소스를 제공하며, 세션 유지 시간에 제한이 있습니다. 따라서 대용량 데이터셋이나 오랜 시간이 필요한 작업에는 제한이 있을 수 있습니다.

인터넷 연결 필요

코랩은 클라우드 기반이기 때문에 인터넷에 연결되어 있어야 합니다. 인터넷 연결이 불안정한 경우 작업이 중단될 수 있습니다.

 

 

4. 코드 예시(타이타닉)

# 필요한 라이브러리 import
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 타이타닉 데이터셋 불러오기
data_url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(data_url)

# 생존자와 사망자 수 countplot으로 시각화하기
sns.countplot(x='Survived', data=df)
plt.title('Survival Count')
plt.xlabel('Survived')
plt.ylabel('Count')
plt.show()

# 성별에 따른 생존자와 사망자 수 countplot으로 시각화하기
sns.countplot(x='Survived', hue='Sex', data=df)
plt.title('Survival Count by Sex')
plt.xlabel('Survived')
plt.ylabel('Count')
plt.legend(title='Sex', loc='upper right')
plt.show()

 

생존자 수 (0은 사망자, 1은 생존자)

 

성별에 따른 생존자 시각화(0은 사망, 1은 생존)



 

5. 마무리

이제 코랩을 사용하여 데이터 분석과 머신 러닝 프로젝트를 시작할 준비가 되었습니다. 

계속해서 코랩을 활용하여 다양한 프로젝트를 진행해보세요!

 

* 이 블로그에서 사용된 데이터는 Data Science Dojo에서 제공하는 타이타닉 데이터셋을 활용하였습니다. 데이터셋의 출처는 다음과 같습니다:https://github.com/datasciencedojo/datasets/blob/master/titanic.csv