[ 파워 BI ] 대구 지하철 승하차 현황

2024. 1. 22. 19:24Power BI

728x90
반응형

대구 지하철 역별 일별 시간별 승하차 인원 현황을 알아보도록 하겠습니다.

대구 교통 공사에서 제공하는 공공데이터를 활용하였습니다.


 

 

대구교통공사_역별일별시간별승하차인원현황_20231231

대구교통공사 역별 일별 시간별 수송인원현황(2023. 1. 1.~2023. 12. 31.)에 대한 데이터로 역별, 일자별, 시간대별로 승하차인원을 조회할 수 있는 자료입니다.

www.data.go.kr


| 데이터 전처리

폴더에서 파워쿼리 편집기로 데이터를 불러온 후 Cvs.Document 함수를 활용해서 테이블로 변경해 주었습니다.

Content의 테이블에는 연도가 없기 때문에 Name의 연도를 활용하기 위해서 Name을 남겨 줍니다.

맨 오른쪽에서 "_"의 뒤를 추출해주는 작업을 해준 후 앞의 4개의 문자만 남겨 연도를 만들어 주었습니다.

테이블을 확장을 해주고 Name, 월, 일 컬럼을 병합해 주고 이름을 날짜로 변경해 주었습니다.

{ "날짜", "역번호", "역명", "승하차" } 컬럼 외 다른 컬럼을 열 피벗 해제를 통해서 가로형 데이터를 세로로 만들어 주겠습니다.

시간 컬럼을 만들어주고 데이터 형식을 맞춰 주었습니다.


| 데이터 모델링

역을 지도에 표기해 주기 위해서 역주소 및 전화번호 공공데이터를 활용해 보도록 하겠습니다.

파워쿼리는 주소를 인식하기 때문에 역 주소를 활용해 보도록 하겠습니다.

역번호는 패턴을 보이 아까의 데이터의 마지막 "0"이 빠져 있는 것처럼 보입니다.

접미사를 살짝 추가해 보도록 하겠습니다. 그리고 데이터 모델링을 해주었는데 계속 오류가 납니다.

원인을 찾기 위해서 쿼리를 복사해서 역번호를 그룹화를 하고 행카운트를 해주었더니 

헉 140이 2개가 나와서 중복이 되는 거 같습니다.

아 데이터 품질이 살짝 의심이 들지만 시작한 김에 끝까지 가 보도록 하겠습니다.


| 데이터 시각화

① 지도 차트

주소를  맵핑한  후에 한번 살펴보니 음 이상한 위치가 보이는 거 같습니다.

그냥 해도 되겠지만 최근 배운 데이터 라벨을 추가하기 위해서 위경도를 한번 해 보도록 하겠습니다. 

데이터를 불러온 후 Join을 하기 위해서 역명을 맞춰주고 위경도를 추가해 보도록 하겠습니다.

위경도를 활용하면 다음과 같이 라벨링이 가능합니다.

마지막으로 승하차 인원수를 거품크기로 넣어주면 지역별 비교가 가능해집니다.

 

② 시간대별 이용현황

역시 출, 퇴근 시간 이용자가 제일 많은 것 같습니다.

1 ~ 3호선 이용현황을 보니 3호선은 직장인, 학생의 이용은 많지 않은 것으로 예상됩니다.

최근에 직장인의 회식도 줄고 있다고 하는데 음 작년 겨울과 비교했을 때 아직 그러한 트렌드가 있는지는 모르겠습니다.

주차별 트렌드를 봐도 크게 차이가 발생하는 것 같지는 않아 보입니다.

 

③ 요일 / 시간별 이용현황

역시 출퇴근 인원의 이용이 많아 보입니다.

시간구성비 & 요일 구성비를 계산 후 스캐터 차트를 만들어 주었습니다.

④ 대시보드 만들기

반응형

위의 데이터를 종합하여 대시보드를 만들어 줍니다.

반월당은 주말 인원이 많은 지역 상권으로 추정

출근이 빠른 지역은 어딜까요? 역시 중심에서 거리가 먼 지역이 출발이 빠른 거 같습니다.

잘 활용하면 해당 지역 트렌드를 다양하게 볼 수 있을 것 같습니다.

 

728x90
반응형