COVID-19 Visualization Competition by DACON

이번 포스팅에서는 3월 29일부터 5월 10일까지 진행된 DACON 주관 COVID-19 바이러스의 시각화 공모전의 내용을 담아보겠습니다.

Data Merge?

Dacon에서 주어진 데이터 셋은 총 10개입니다.

 files = glob.glob('dataset/*.csv')

 data = []
 for i in files :
     i = i[8:]
     data.append(re.sub(".csv","",i))

 for i in range(len(files)) :
     globals()[data[i]] = pd.read_csv(files[i])

 data
 ['Case','PatientInfo','PatientRoute','Region','SearchTrend',
  'Time','TimeAge','TimeGender','TimeProvince','Weather']

크게 환자와 관련된 자료, 시계열 자료, 지역 연관 자료, 검색어 트렌드 로 데이터를 구분지을 수 있을 것 같습니다. (Key 값 기준) 최대한 많은 정보를 한 셋에 묶어서 시각화할 수 있도록 데이터들을 Merge하고 분석을 진행할 예정입니다. (하지만 먼저 개별 데이터셋을 살펴보고 Merge를 생각해보겠습니다.)


EDA

jpg

위 plot은 날짜가 지남에 따라 확진자와 사망자 수의 증가 추이를 보여주는 시계열 플랏입니다. 확진자 수가 늘어나는 추세와 사망자 수가 늘어나는 추세가 비슷한 모양을 보입니다. 특히 확진자의 증가 폭이 2월 말에서 3월 초 폭발적으로 늘어난 점을 알 수 있습니다

이제 TimeProvince 데이터를 통해 지역별 확진자 수를 살펴봅니다.

jpg

(Plotly express는 다이나믹 시각화를 제공하지만 markdown에 넣는 방법을 아직 구글링중입니다 ㅠㅠ)

본 공모전은 3월 20일까지의 데이터가 주어져 있습니다. 역시 대구, 경북 지역의 확진자가 가장 많이 보여짐을 알 수 있습니다. 이 두 지역을 제외하고 다른 곳의 확진자 수를 좀 더 자세히 살펴보겠습니다.

jpg

PNG

250명 전까지의 확진자 수를 보여주는 플랏입니다. 서울, 경기 지역이 압도적인 2위 그룹임을 알 수 있습니다.

이 데이터를 날짜별 시계열 데이터로 나타내어 지역별 증가 추이를 살펴보겠습니다.

jpg

2월 25일을 기점으로 폭발적으로 대구 지역 확진자가 증가하는 것을 알 수 있습니다. 신천지 예배 영향인 것으로 생각됩니다.

jpg

다음은 안타까운 지역별 사망자 플랏입니다. 확진자 플랏과 비슷하게 대구, 경북 지역에 집중되어 있습니다. 앞으로의 시각화를 통해 사망자 수와 확진자 수가 강력한 양의 선형 관계를 보이는 것을 확인할 수 있습니다.

날짜별 지역 데이터 다음으로 연령대성별 데이터를 살펴보도록 하겠습니다.

PNG

PNG

잘 알려져있는 대로 다른 나이대에 비하여 20대 확진자 수가 가장 많습니다. 또한 남성에 비해 여성이 더 코로나 바이러스 감염에 취약한 것으로 보입니다.

마지막으로 날짜별 감염 경로 증가 추세를 알아보도록 하겠습니다.

PNG

Contact with patient, 즉, 감염자와의 접촉이 가장 큰 감염 경로인 것을 확인할 수 있습니다. 전염성이 높은 COVID-19의 위험성을 잘 보여줍니다.

다음 포스팅에서는 위 데이터들을 활용하여 Hierarchical SGLMM을 통한 지역별 첫 확진자 발생 추이 예측 프로젝트에 대해 다루겠습니다.