본문 바로가기

BOOSTCAMP AI TECH/7주차_Computer Vision5

[BOOSTCAMP AI TECH] 35일차_Multi-modal Multi modal learning -다양한 타입과 특성의 데이터를 활용한 학습법 -즉, 서로 다른 데이터를 사용해 진행하는 학습법 -물론 실제로는 그렇게 쉬운 문제가 아니다. -그 이유로 Multi model learning은 세 가지 어려운 점이 있다. 1) 다양한 데이터를 활용해야 하는데, 각 데이터는 특징이 달라 표현법이 서로 다르다. 2) 서로 다른 모달리티에서 오는 정보의 양이 고르지 못하다. => 텍스트에서는 하나지만, 이미지에서는 많은 양이 나온다. 3) 여러 모달리티를 사용하기에 각 모달리티를 공평하게 참조를 해야하는데 그러지 못하다. => NN 모델들은 결과를 내기 위해 중요한 데이터에 큰 가중치를 두는 경향이 있다. 이로 인해 시각+소리 데이터를 넣었을 때 시각이 대상의 식별에 더 .. 2021. 3. 12.
[BOOSTCAMP AI TECH] 34일차_Instance/Panoptic segmentation Instance segmentation -물체의 class뿐 아니라 같은 class의 각 객체까지 식별 가능한 모델 Mask R-CNN -R-CNN과 구조 자체는 비슷하다. -다만 차이점으로 RoI Align이라는 풀링 레이어를 제안했다. -R-CNN의 RoI 풀링은 정수 좌표에서만 특징을 추출할 수 있었다. -하지만 RoI Align은 보간법을 통해 정교화된 subpixel (소수점 픽셀 레벨)의 풀링을 지원한다. -즉, 소수 좌표에서도 특징을 추출할 수 있게 되었다. -이를 통재 정교화된 특징을 추출할 수 있게 되었고 성능이 향상되었다. -기존 Faster R-CNN에서는 풀링된 특징 위에 올라가있던 헤더가 두 개였다. -Mask R-CNN에서는 기존의 헤더 옆에 Mask branch를 추가했다. -.. 2021. 3. 11.
[BOOSTCAMP AI TECH] 33일차_Object Detection, CNN Visualization Object Detection (객체 검출) -Semantic segmentation : 픽셀 단위 객체 종류 인식 -Instance segmentation : 객체를 보다 세분화하여 인식 -Panoptic segmentation : Instance segmentation과 같이 객체를 보다 세분화하여 인식 *즉, Semantic은 class를 구분하고, 나머지는 객체를 구분한다. -Object detection은 Classification + Box localization이다. -즉, 일반 인식보다 조금 더 고차원으로 객체의 분류와 함께 객체의 위치인 Box 좌표(좌상단, 우하단)을 찾아낸다. -Object Detection은 크게 Two-stage와 Single-stage 방법으로 분류할 수 있다. .. 2021. 3. 10.
[BOOSTCAMP AI TECH] 32일차 강의 목록 - - 요약 강의 피어세션 학습정리 깊은 네트워크의 문제점 1) 경사도 손실 및 폭주 2) 계산 복잡도 증가 3) Degradation 문제 *의외로 오버피팅은 잘 일어나지 않는다. GoogleNet -인셉션 모듈이라는 구조를 통해 하나의 레이어에서 다양한 크기의 컨볼루션 필터를 사용, 여러 측면에서 특징을 파악한다. -즉 네트워크를 깊이를 확장하는 것이 아니라 수평으로 확장한다. -그런데 한 층에서 여러 필터를 사용하면 계산복잡도가 증가한다. -이를 방지하기 위해 1*1 컨볼루션을 통해 차원을 줄여준다. (보틀넥) -경사도 손실 문제의 방지를 위해 중간중간 auxiliary classifier을 도입한다. -Auxiliary classifier는 중간 중간 loss를 측정하고 역전파 과정 중.. 2021. 3. 9.
[BOOSTCAMP AI TECH] 31일차_Image classification 강의 목록 - Image Classification 1 - Annotation data efficient learning 요약 강의 Computer Vision에 대한 전반적인 설명과, CV의 대표적인 작업인 분류에 대한 설명을 들었다. 또한 적은 수의 데이터로 효율적으로 학습을 하는 방법을 이해했으며, VGGNet을 활용한 구현 과제를 수행했다. 피어세션 학습정리 Computer Graphics : 분석한 정보를 이용해 장면에 해당하는 이미지나 3D 신을 재구성한 것 (Rendering) Computer Vision : 컴퓨터 그래픽스가 하는 일을 반대로 하는 것. 즉, 시각적 데이터에서 representation을 추출하는 일. *Interpolation = representation = 사물을 보고.. 2021. 3. 8.