본문 바로가기

인공지능/머신러닝

[머신러닝] 선형회귀모델을 이용한 로또 번호 예측하기 - 2(데이터)

데이터 전처리, CSV파일 생성

 

dhlottery.co.kr/gameResult.do?method=byWin

 

로또6/45 - 회차별 당첨번호

956회 당첨결과 (2021년 03월 27일 추첨) 당첨번호 10 11 20 21 25 41 956회 순위별 등위별 총 당첨금액, 당첨게임 수, 1게임당 당첨금액, 당첨기준, 비고 안내 순위 등위별 총 당첨금액 당첨게임 수 1게임

dhlottery.co.kr

위 링크에서 회차별 당첨 번호를 엑셀 파일로 다운 받을수 있다.

다운 받아서 열어보면은 아래와 같이 정리된 당첨번호를 확인할 수 있다.

<역대 로또 당첨번호>

우리가 필요한건 당첨금액이 아니라 당첨번호이기 때문에

일단 엑셀에서 당첨금액 데이터들은 삭제

 

그리고 나는 이번 프로젝트는 코랩에서 진행할 계획이기 때문에

해당 파일을 구글 드라이브에 업로드 해주었다.

드라이브에 업로드 한 후 코랩 노트북을 생성 해주고

드라이브 마운트 시켜주었다.

 

<코랩 노트북에서 구글 드라이브 마운트>

 

그리고 리눅스 명령어로 디렉토리 이동이동이동

<코랩 노트북 디렉토리>

정상적으로 마운트 되었고, 파일도 존재하는 것을 확인할 수 있다.

(코랩 + 구글드라이브 + 도커 + 리눅스 + 구글클라우드의 기술스택으로 이루어져 있기 때문에

리눅스 명령어 사용이 가능하다고 한다. 참고참고)

 

<읽어온 엑셀파일>

읽어본 파일을 보면 첫번째 로우처럼

컬럼의 이름이 이상하기 때문에 이 부분을 또 수정

 

 

<데이터프레임 정리>

이를 별도의 CSV 파일로 저장해놓고

앞으로 활욯해보도록 하자!

 

사용한 코드

from google.colab import drive 

drive.mount('/content/gdrive/')

cd /content/gdrive/My Drive/CSV_Data/Lotto


import pandas as pd 

excel = pd.read_excel('/content/gdrive/My Drive/CSV_Data/Lotto/로또 당첨번호_210328.xlsx', header=None)
excel = excel.drop(columns=0, index=0)
excel = excel.drop(index=1)
excel = excel.rename(columns={7: 'Bonus'})
excel.index = [i for i in range(1,len(excel)+1)]

excel_to_csv.to_csv('lottery.csv')

 

 

여기까지 하면서 크게 느낀 점은

데이터 프레임 다루는 법을 배우고 공부했었지만

불과 2개월 만에 이렇게 깨끗하게 기억이 사라졌다는 점...

예전에 판다스 데이터프레임 조작 연습문제 봤던걸

다시 한번 찾아서 혼자 풀어보고 연습해야겠다!