본문 바로가기

BOOSTCAMP AI TECH/PStage7

03-03. Object Detection Object Detection -사진 자체가 아닌 사진 속의 특정 객체의 위치와 분류를 수행하는 작업. Previous Method 1) Sliding Window -일반적으로 많이 활용되었던 방법. -사전에 특정 사이즈의 윈도우를 정해놓고, 그 윈도우를 활용해 사진을 훑으며 객체 탐지 2) Selective Search -사진의 색상이나 모양 등을 토대로 low-level부터 high-level의 객체 영역을 탐지하는 방법. -RCNN~FasterRCNN까지 활용되었다. Deep Learning을 활용한 객체 탐지 -딥러닝을 활용한 객체 탐지는 크게 2stage와 1stage로 나뉜다. -2 stage는 어떤 이미지가 주어지면 가장 먼저 Selective Search 기반의 Region Proposal.. 2021. 5. 10.
03-02. MRC (Machine Reading Comprehension, 기계독해) Machine Reading Comprehemsion -기계 독해 -주어진 지문을 이해하고 주어진 질의에 대한 답변을 추론하는 문제 MRC의 종류 1) Extractive Answer Datasets : 질의에 대한 답이 항상 주어진 지문의 segmant (span)으로 존재. ex) SQuAD, KorQuAD, NewsQA, Natural Questions, ... 2) Descriptive/Narrative Answer Datasets : 답이 지문 내에 없고 질의를 보고 생성된 문장의 형태 ex) MS MARCO, Narrative QA, ... 3) Multiple-choice Datasets : 질의에 대한 답을 여러 개의 답 중 하나를 고르는 형태 (객관식) ex) MCTest, RACE, A.. 2021. 4. 26.
03-01. Object Detection / Segmentation COCO Dataset -일반적으로 객체 구분과 검출에 자주 사용되는 데이터 셋 -이미지에 대한 box, segment 위치를 포함한다. -Info 에는 데이터셋에 대한 high-level의 정보가 포함된다. -licenses 에는 이미지의 라이센스 목록이 포함된다. -images 에는 데이터 셋의 전체 이미지 목록 및 각각의 width, height, 파일명을 포함한다. -categories 에는 class에 해당하는 id, name 및 supercategory가 포함된다. -annotations 에는 해당 이미지의 자세한 라벨 정보들이 포함된다. mAP (mean average precision) -AP (Average Precision)은 x를 recall, y를 predicsion으로 둔 그래프의.. 2021. 4. 26.
02-02. Tabular 정형 데이터 -엑셀 파일 형식이나 관계형 데이터베이스의 테이블에 담을 수 있는 데이터. -즉, 행과 열로 표현이 가능한 데이터이다. -하나의 행은 하나의 데이터 인스턴스를, 각 열은 데이터의 특징을 나타낸다. -사람, 기업, 현상, 사회의 많은 부분들이 정형 데이터로 기록된다. 즉, 정형 데이터는 가장 기본적인 데이터이고, 분야를 막론하고 많은 데이터가 정형데이터로 존재하기에 필수적인 데이터이다. -정형데이터를 분석하는 능력은 데이터에 대한 상상력과 통찰력에 직결된다. -즉 다양한 경험을 통해 데이터에 국한되지 않고 범용적으로 쓰일 수 있는 능력이다. *비정형 데이터 : 이미지, 비디오, 음성, 자연어 등의 정제되지 않은 데이터 평가 지표 1) Accuracy (정확도) - (TP + TN) / (TP .. 2021. 4. 24.
02-01. KLUE 자연어 처리의 응용분야 -의미 분석기 -구문 분석기 -감성 분석기 -형태소 분석기 -개체명 분석기 -등 다양한 자연어처리가 있지만, 대부분은 '분류'문제이다. -그리고 이러한 분류를 위해 자연어를 벡터화하는 인코딩이 필요하다. 특징 추출과 분류 -분류를 위해선 데이터를 수학적으로 표현해야 한다. -먼저 분류 대상의 특징을 파악해야 한다. -그리고 이 특징을 기준으로 분류 대상을 그래프 위에 표현이 가능하고, 분류의 경계를 수학적으로 나눌 수 있다. 이를 Classification이라 한다. -새로운 데이터 역시 특징을 기준으로 그래프에 표현하면 어떤 그룹과 유사한지 파악할 수 있다. -과거에는 사람이 직접 특징을 파악해 분류했으나, 실제 복잡한 문제에서는 사람이 파악할 수 없다. -그래서 이러한 특징을 .. 2021. 4. 24.
01. Computer Vision EDA (Exploratory Data Analysis, 탐색적 데이터 분석) -데이터를 이해하기 위한 노력이다. -데이터의 분포 및 값을 검토함으로써 데이터의 표현을 잘 이해하고, 잠재적인 문제를 발견한다. -모델링에 앞서 선행되는 과정으로, 데이터의 분포나 변수간 관계를 파악하기 위해 히스토드램, 산점도, 상관관계표 등을 활용해 시각화 하는 방법이다. -파악해야 할 주요 정보는 다음과 같다. 1) 수치형인데 명목형인 변수 2) 명목형인데 순서가 중요한 변수 (ex : Excellent, Good, Average ... ) 3) 합쳐서 하나로 만들 수 있는 변수들 4) 쪼개서 나눌 수 있는 변수 5) 결측값인지 0인지 헷갈리는 관측치 Data Pre-processing (데이터 전처리) -학습을 진행하.. 2021. 4. 24.
00. 시각화 데이터 시각화 -데이터를 그래픽 요소로 매핑하여 시각적으로 표현하는 것 -연구에서 사용하지 말라는 시각화가 실무에서 요구될 수도 있다. -즉 시각화에 정해진 정답은 없다. 데이터셋의 종류 1) 정형 데이터 : 테이블 형태로 제공되는 데이터. 가장 쉽게 시각화할 수 있다. 2) 시계열 데이터 : 기온, 주가 등의 정형 데이터와 음성, 비디오 같은 비정형 데이터가 존재. 시간의 흐름에 따라 추세, 계절성, 주기성 등을 살펴야 한다. 3) 지리/지도 데이터 : 지도 정보와 보고자 하는 정보 간의 조화가 중요하다. 4) 관계 데이터 : 객체간 관계가 존재하여, 객체는 노드, 관계는 링크로 표현한다. 5) 계층적 데이터 : 관계 중에서도 포함 관계가 분명한 데이터로, 트리 등이 예시이고 네트워크 시각화 가능 -데.. 2021. 4. 24.