본문 바로가기

분류 전체보기

(10)
Clip idea 보호되어 있는 글입니다.
Donsker and Varadhan’s variational formula 출처 : “User-friendly Introduction to PAC-Bayes Bounds”, : Vol. 17, No. 2, pp 174–303. DOI: 10.1561/2200000100.이 공식은 PAC bayes 이론과 변분추론의 근간이 되는 중요한 공식이다. KL divergence의 정의에 의해 아래와 같이 바로 유도될 수 있다. Donsker and Varadhan’s variational formula의 등호는, rho와 깁스 측도 파이h 의 KL divergence가 0일때 성립한다. 또한 KL divergence는 항상 양수이기 때문에 Donsker and Varadhan’s variational formula가 유도된다.
KL Divergence 출처 : “User-friendly Introduction to PAC-Bayes Bounds”, : Vol. 17, No. 2, pp 174–303. DOI: 10.1561/2200000100.KL divergence는 다음과 같이 정의된다. 뮤와 뉴가 세타에 대한 확률밀도 함수라면, 다음과 같이 해석해도 무방하다. 확률측도의 정의를 직관적으로 설명하면, 어떤 사건의 집합이 주어졌을 때, 해당하는 확률을 부여하는 함수이다. 자세히 살펴보자면여기서 f를 확률밀도함수라고 하면, 다음과 같이 나타낼 수 있다. 여기서 뮤는 d세타 영역에 할당된 확률을 나타낸다.
Attribute 수집으로 해석한 신경망의 원리 [개요]여기서는 sigmoid함수를 activation으로 사용한 신경망의 동작원리를 계층적인 attribute을 수집 관점으로 분석해 보고자 한다. Analysis신경망의 작동과정은 다음과 같이 도식화 할수 있다. 각 뉴런은 특정한 attribute에 활성화가 된다. 이때, 각 뉴런은 layer에서 활성화된 뉴런을 기반으로 attribute의 정보를 받고 이 조합을 기반으로 새로운 attribute을 조합한다. (예시: 눈+코+입 => 얼굴)이때, 뉴런의 활성은 0또는 1이 되어야 하지만, 일반성을 유지하기 위해 활성화될 확률을 출력하게 된다. 이때 확률을 계산하는 함수 f를 활성 함수라고 한다.활성함수와 확률누적함수이를 좀 더 자세히 보자면,충분히 많은 attribute을 수집했다고 했을때, attr..
Stochastic Gradient Descent의 수렴성 [출처] Ghadimi, S. & Lan, G. (2013). Stochastic first‐ and zeroth‐order methods for nonconvex stochastic programming. SIAM J. Optim., 23(4):2341–2368.여기서 stochastic gradient descent, 즉 미니배치별로 gradient를 샘플링하여 Gradient Descent를 했을 때, Minima로 수렴함을 보인다. 이것은 gradient norm의 평균이 0임을 보임으로 충분하다.가정L-smooth와 Update rule에 의해, 여기서 t step에서 기댓값을 취하면여기서 t=0에서 t=T-1 까지 전부 합하면 (Telescoping)다시 정리하면따라서 무장위 시점 R에 대하여..
Gradient Descent란 신경망을 사용하기 위해서는 주어진 데이터에서 정답을 출력하는 파라미터를 찾아야 한다. 하지만 신경망의 파라미터의 갯수는 일일히 조작해서 얻기 힘들다.(Chatgpt 1750억개)따라서 정답을 출력하는 모델의 파라미터를 효과적으로 근사시키는 알고리즘이 필요하다. 이러한 목적을 위해 보통 Gradient Descent라고 불리는 근사 기법을 사용한다. 문제 정의주어진 데이터에 대한 함수를 f(x) 라고 하자. 이 때 x 는 신경망의 파라미터다. 이 함수는 신경망 x가 모든 데이터의 정답을 맞추면 0, 오답의 수가 늘어날수록 점점 커지도록 설계되었다고 가정한다. 이러한 함수의 예시는 모든 데이터에 대해 (Model(input)-label)^2의 합이 있다.이때 적절한 모델 파라미터 x를 구하기 위해 일일히..
SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLYIMPROVING GENERALIZATION https://arxiv.org/abs/2010.01412[논문리뷰]현대 신경망은 많은 파라미터를 갖고 있어 학습 데이터에 과적합이 일어나기 쉽다. 이런 신경망은 gradient descent 알고리즘에 의해 효과적으로 학습되고, 이전 논문에서 본 것과 같이 gradient descent은 신경망의 일반화 성능을 보장해 주는 듯 하다. 하지만 현대 대형모델들은 파라미터 갯수가 늘어남에 따라 과적합에 더 취약하게 되고, explicit하게 학습 과정을 조정하여 일반화 성능을 높일 필요성이 있다. 이 논문은 PAC bayes 정리를 사용해, Loss landscape의 sharpness를 낮추는 것이 일반화 성능을 높힐 수 있음을 밝힌다. 이러한 발견에 기반해 SAM(sharpness Aware Minim..
UNDERSTANDING WHY NEURAL NETWORKS GENERALIZE WELL THROUGH GSNR OF PARAMETERS https://openreview.net/pdf?id=HyevIJStwH[논문 리뷰]개요: 신경망은 많은 파라미터를 통해서 데이터를 학습한다 (over parameterized).학습해야하는 파라미터가 많으면, 직관적으로 그 중 일반화 성능이 낮은 파라미터로 과적합 되기 쉽다.(overfitting) 하지만 실제로는 신경망을 통한 학습은 다양한 데이터환경에서 우리의 우려보다 잘 작동하는 것으로 보인다. 이런 현상은 기존 일반화 이론들로는 설명되지 않는 현상이다. 이 논문은 gradient descent방법의 특성이 신경망의 일반화 성능을 보장해 준다는 이론 분석을 제공한다. AnalysisOSGR(One Step Generalization Ratio)본 논문에서는 일반화를 분석하기 앞서, 다음과 같이 O..

반응형