-
[Review] Deep SVDD
Anomaly detection 모형 중 하나인 Deep SVDD에 대해 다뤄보고자 합니다. 정상인 데이터를 0, 비정상인 데이터를 1로 label하여 binary classification의 형태로 detect하는 supervised 모형들과는 달리, SVDD 계열 모형들은 정상 패턴에 대해서만 학습한 뒤, 비정상을 분류한다는 점에서 Semi-supervised 모형으로 불리곤 합니다. 모형의 아이디어와 실제 파이썬에서의 실행 결과를 함께 리뷰해보도록 하겠습니다. Ruff, Lukas, et al. “Deep one-class classification.” International conference on ma... Read More
-
[Review] SHAP
ML/DL 모형들이 널리 쓰여지면서 모형의 결과에 대해 해석이 가능한 지에 대한 연구도 활발히 진행되고 있습니다. 주로 Feature Importance나 LIME과 같이 주로 변수들이 모형에 얼마나 영향을 미쳤는지를 파악하는 형태로 해석하게 되는데요! 이런 방법론 중 가장 이론적 뒷받침이 탄탄하다고 알려진 SHAP에 대해 공부한 바를 간단히 정리해보고자 합니다. SHAP이란? SHAP(SHapley Additive exPlanation)은 Shapley value를 활용하여 모형의 결과에 대해서 각 특성(변수)의 기여도가 어느 정도인지 계산하는 방법론입니다. 이 기여도를 통해서 어떤 변수가 모형의 결정에 얼... Read More
-
[Review] Anomaly Transformer
[Paper review] Anomaly Transformer 시계열 데이터의 이상치 탐색 방법론으로서 Transformer 매커니즘을 활용한 Anomaly Transformer에 대해 리뷰해보겠습니다. ICLR 2022 의 spotlight 논문이라고 하네요! Xu, Jiehui, et al. “Anomaly transformer: Time series anomaly detection with association discrepancy.” arXiv preprint arXiv:2110.02642 (2021) (본 리뷰의 모든 수식과 그림은 원 논문을 참고했습니다.) Idea Anomaly Transfo... Read More
-
[Review] Efficient Det
[Paper review] Efficient Det 가볍고 효율적인 방식임을 강조하지만 정확성도 놓치지 않은 구글의 Efficient Det 논문을 리뷰해보겠습니다. Tan, Mingxing, Ruoming Pang, and Quoc V. Le. “Efficientdet: Scalable and efficient object detection.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. (본 리뷰의 모든 수식과 그림은 원 논문을 참고했습니다.) Architeture Efficient De... Read More
-
Favicon 추가하기
필요할 때 다시 보려고 만든 자료 이번에 Github blog를 리뉴얼하면서 여러 가지들을 공부하고 있습니다. 시행착오를 겪었던 것들 중 다음에도 참고할만한 내용들을 간단하게 정리해보려고 합니다. 오늘 정리해볼 내용은 Favicon 추가하기 입니다. Github blog를 처음 만들고 나면 favicon이 없어서 페이지 탭에 지구본 모양이 나타나는데요! 이 지구본 모양을 예쁜 저만의 favicon으로 바꿔보겠습니다. Favicon 이미지 물색 우선 맘에 드는 favicon 이미지를 찾아봅시다! 저는 이 사이트(Flaticon)를 참고했습니다. 저의 블로그 이름이 Decision J의 블로그이니만큼 ... Read More
-
[Review] YOLOX
[Paper review] YOLOX YOLO series의 2021년 가장 최신 버전, YOLO X 를 리뷰해보려고 합니다. (이전 버전 리뷰: YOLO v1 review, YOLO v2 review, YOLO v3 review) 가장 최신의 YOLO series 논문을 살펴보면서 YOLO series는 마무리 하겠습니다! Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun. “YOLOX: Exceeding YOLO Series in 2021” arXiv preprint arXiv:2107.08430 (2021) (본 리뷰의 모든 수식과 그림은 원 논문을 참... Read More
-
[Review] YOLO v3
[Paper review] YOLO_v3 YOLO series의 3번째 버전, YOLO v3 입니다. (이전 버전 리뷰: YOLO v1 review, YOLO v2 review) Object detection에 관련된 여러 competition이나 project를 살펴볼 때 빠짐없이 등장하는 모델이었는데요! 논문도 아주 짧고 굵어서 호다닥 리뷰해보겠습니다. 구성은 이전 v2와 마찬가지로 기존 버전에서 어떤 것을 업데이트 했는지 말하고 있습니다. Redmon, Joseph, and Ali Farhadi. “Yolov3: An incremental improvement.” arXiv preprint arXi... Read More
-
Narrow Confidence Interval for low N with small p
최근 Proportion 예측치에 대한 신뢰구간에 대해 생각해 볼 기회가 있었습니다. 어떤 완성된 제품의 판매 이후 기간 내 누적 불량률에 대해 예측하는 업무에 참여했는데요! 이 때 점 추청치도 물론 중요하지만, 구간 추청치에 대한 관심도 이에 못지 않은 것 같습니다. 범위로 표현되다보니 어느 정도의 규모의 불량률이 발생할 수 있는가에 대한 관심이라고 생각합니다. 이때 문제가 되었던 건 제품의 출시 초기, 즉, 누적 불량률 proportion에서 n이 적을 때의 신뢰 구간이 매우 크게 벌어진다는 것입니다. 따라서 예측치로서의 가치가 퇴색되는 문제가 있습니다. 이에 초기 불량률 예측에서도 나름대로 적정한 범위를 ... Read More
-
[Review] YOLO v2
[Paper review] YOLO_v2 이전 포스팅의 YOLO v1에 후속 버전인 YOLO v2에 대해 리뷰해보고자 합니다. Redmon, Joseph, and Ali Farhadi. “YOLO9000: better, faster, stronger.” Proceedings of the IEEE conference on computer vision and pattern recognition (2017) 본 논문의 구성은 독특하게도 Better, Faster, Stronger의 세 파트로 구성되어 있습니다. 각각 어떻게 이전 버전을 업데이트하고 발전시켰는 지를 소개하고 있는데요. 하나씩 살펴보겠습니다. (본... Read More
-
[Kaggle] Google AI Open Images - Object Detection Track
Kaggle Study #2. - Google AI Open Images - Object Detection Track Object Detection에 대한 논문을 읽어가면서 이를 실제 데이터로 적용해보고 싶다는 생각에 과거 kaggle competition을 찾아보았습니다. 그래서 발견한 것이 2018년 진행된 Google AI Open Images - Object Detection Track 이었습니다. 3년전 대회이긴 하지만 discussion들이나 코드들을 참고하면서 공부할 목적으로 선택해보았습니다. 대회 Overview 먼저 Google AI Open Images - Object Detection T... Read More
-
[Review] YOLO v1
[Paper review] YOLO_v1 Object detection에 관한 논문들을 읽어보고자 합니다. 논문 리스트는 시간 순으로 정리되어 있는 깃헙이 있어 이 곳을 참고하여 히스토리를 거슬러 올라가려고 합니다. 너무나 잘 정리가 되어있어 많은 도움을 받고 있습니다. 먼저 가장 궁금했던 YOLO 계열의 논문들을 죽 따라가보며 리뷰해볼까 합니다! 가장 첫 번째 버전인 You Only Look Once: Unified, Real-Time Object Detection, Redmon, Joseph, et al. , Proceedings of the IEEE conference on computer vision a... Read More
-
Coursera Computer Vision Course 과제 정리
Coursera Computer Vision Course 과제 정리 장장 1월부터 4월까지 3개월을 질질 끌었던 (심지어 다 듣지도 못함) Coursera의 “Deep Learning in Computer Vision”(HSE Univ.) 수업에서 나왔던 과제들을 간단하게 정리해보고자 합니다. Week 1 1주차 과제는 주어진 gray scale 이미지의 윤곽선을 detection하는 것입니다. 이 과정에서 Canny Edge Detector 라는 것을 사용하게 되는데요! 작동 매커니즘을 간략히 살펴보겠습니다. 1. Noise Reduction 제일 먼저 이미지의 Noise를 제거해줍니다. Canny ... Read More
-
[Dacon] 한국어 문서 추출요약 AI 경진대회 참여기
한국어 문서 추출요약 AI 경진대회 2020년 겨울, Dacon에서 실시한 한국어 문서 추출요약 AI 대회에 참가했던 것을 기록해보고자 합니다. (대회에 대한 자세한 사항은 여기에!) 이러한 대회에 항상 함께해주는 쇠똥구리 팀원들에게 먼저 감사 인사를 전합니다. 대회의 목적은 간단합니다! 다양한 한국어 기사 원문으로부터 적절한 추출 요약문을 도출해내는 모델을 만들면 됩니다. 먼저 데이터의 모습과 함께 모델링의 목적을 파악해보겠습니다. 데이터 & 분석 목적 먼저 데이터는 약 20~30여개의 문장으로 이루어진 기사들입니다. 각 기사에는 신문사, 기사원문, 요약문(label), 해당 요약문의 인덱스 ... Read More
-
Personality Detection from Text in Korean
Personality Detection from Text in Korean 이번 포스팅은 이전 포스팅에서 다루었던 논문의 architecture를 실제로 적용해보는 프로젝트를 진행한 과정을 소개하겠습니다. 수업에서 간단한 활용 사례를 보이기 위해 진행한 예제로 모델의 성능 등은 우수하지 못함을 알려드립니다 (ㅠㅠ) 우선 이전 포스팅에서 다룬 논문은 간략하게 설명하자면 주어진 Text에서 저자의 Personality를 detection하는 것입니다. 참조 논문의 모델은 영어 text를 기반으로 작성되어 있지만 이번 예제에서는 더 직관적인 이해를 위해서 한국어 text에서의 감성 분석을 진행해보고자 합니다... Read More
-
Deep Learning-Based Document Modeling for Personality Detection from Text
Deep Learning-Based Personality Detection from Text 이번 포스팅은 CNN을 활용하여 Text 저자의 Personality를 판별하는 감성 분석 논문에 대해 리뷰해보겠습니다. Deep Learning-Based Document Modeling for Personality Detection from Text (N. Majumder, S. Poria and A. Gelbukh and E. Cambria) 의 논문을 기초로 리뷰하였으며 해당 논문은 2017년에 IEEE Computer Society에 발표된 논문입니다. 본 포스팅에서 논문에서 소개하는 프로세스와 CNN... Read More
-
[Dacon] COVID-19 Modeling
COVID-19 Modeling Spatio variation of COVID-19 spread focusing on infection Hotspot 이번 포스팅에서는 앞 서 EDA를 진행한 데이터들을 바탕으로 Modeling에 들어가보겠습니다. 본 게시글은 연세대학교 응용통계학과 대학원 “시공간 자료분석 (박재우 교수님)” 수업의 파이널 프로젝트였음을 미리 밝힙니다. Objective 저는 EDA를 진행하던 중 확진자들의 감염 경로에서 다양한 집단 발병지에 주목했습니다. 20년 초 신천지 case가 그러했듯이, 하나의 집단 발병지역이 발생한 후에 그 주변 지역으로 확진자 전파의 효과가 크며 이를 예... Read More
-
[Dacon] COVID-19 EDA
COVID-19 Visualization Competition by DACON 이번 포스팅에서는 3월 29일부터 5월 10일까지 진행된 DACON 주관 COVID-19 바이러스의 시각화 공모전의 내용을 담아보겠습니다. Data Merge? Dacon에서 주어진 데이터 셋은 총 10개입니다. files = glob.glob('dataset/*.csv') data = [] for i in files : i = i[8:] data.append(re.sub(".csv","",i)) for i in range(len(files)) : globals()[data[i]] = pd.re... Read More
-
[Kaggle] Walmart SaleType Classification
Kaggle Study #1. - Walmart SaleType Classification 이번 포스팅에서 다룰 Kaggle competition은 Walmart SaleType Classification입니다. Walmart에서 제공되는 고객들의 구매이력 data를 바탕으로 해당 고객의 구매타입을 예측해보는 competition입니다. 우선 dataset의 기본적인 형태부터 살펴보겠습니다. import pandas as pd train = pd.read_csv("./train.csv") train.head() TripType VisitNumber ... Read More
-
Gloval Vectors for Word Representation, GloVe
GloVe 이해하기! 이번 포스팅은 Word representation의 한 방법론인 GloVe에 대해서 알아보도록 하겠습니다. GloVe는 Word embedding 방법 중 Distributed representation에 해당하는 방법론으로, 기존의 Word2Vec이나 LSA와 같은 알고리즘이 가지고 있던 한계점들을 보완하여 개발한 알고리즘입니다. 본 글에서는 GloVe가 기존 알고리즘에 비해 어떤 이 점을 갖는지, 어떤 프로세스를 거쳐 텍스트의 Distributed form을 찾게 되는 지 등에 대해 살펴보도록 하겠습니다. Distributed Representation Word r... Read More
-
NLP, Text mining start!
NLP & Text Mining Study 19년도 1학기 Data Science Lab 스터디 주제는 Text Mining입니다. 매주 1회 NLP(Nature Language Processing) 기법 중 Text Mining에 활용할 수 있는 알고리즘들을 공부하여 포스팅할 계획입니다. 이번 포스트에서는 본격적인 알고리즘 소개에 앞서 NLP가 어떤 프로세스를 가지고 있는 지, 어떤 방법 으로 Language data를 처리하는 지 먼저 살펴보도록 하겠습니다. (본문에 앞서 본 포스트는 ratsgo님의 블로그, Stanford University School of Engineering의... Read More