줄리아 프로그래밍 - 자동 미분 Automatic differentiation

728x90

첫 강의: [AI 인공지능 머신러닝 딥러닝/Julia] - Julia 프로그래밍 - 언어 및 강의 소개

Julia 프로그래밍 - 언어 및 강의 소개

Julia 프로그래밍 언어줄리아(Julia)는 고성능의 수치 해석 및 계산과학의 필요 사항을 만족시키면서 일반 목적 프로그래밍에도 효과적으로 사용될 수 있도록 설계된 고급 동적 프로그래밍 언어이

inner-game.tistory.com

이전 강의: [AI 인공지능 머신러닝 딥러닝/머신러닝] - Julia 프로그래밍 - 머신 러닝을 위한 Julia

Julia 프로그래밍 - 머신 러닝을 위한 Julia

[AI 인공지능 머신러닝 딥러닝/Julia] - Julia 프로그래밍 - 언어 및 강의 소개 Julia 프로그래밍 - 언어 및 강의 소개Julia 프로그래밍 언어줄리아(Julia)는 고성능의 수치 해석 및 계산과학의 필요 사항

inner-game.tistory.com

줄리아 프로그래밍 - 자동 미분 Automatic differentiation ❘ Forward- & Reverse-Mode AD

머신 러닝을 위한 Julia
동기 부여Julia AD 생태계

선형 맵

속성
행렬에 대한 연결
구성

파생상품

파생상품이란 무엇인가요?
미분가능성
야코비안
야코비안-벡터 곱
사슬 법칙

순방향 모드 AD

함수 구성
전방 축적
야코비안 계산

역방향 모드 AD

야코비안 계산
함수 구성
역축적
그래디언트 계산
-- JVP를 사용하여 그래디언트 계산
-- VJP를 사용하여 그래디언트 계산

Julia의 자동 미분

규칙 기반 AD
체인룰즈.jl

-- 순방향 모드 AD 규칙
-- 역방향 모드 AD 규칙
-- 체인룰스코어.jl
코드 내성 ⁽⁺⁾
-- 깊이 1: AST 표현
-- 심도 2: 줄리아 IR
-- 심층 3: LLVM 표현
-- 깊이 4: 네이티브 코드
Zygote.jl
-- 주의 사항
Enzyme.jl
-- Low-level API
Finite differences
-- Caveats
-- FiniteDiff.jl 및 FiniteDifferences.jl
포워드디프.jl
DifferentiationInterface.jl
DifferentiationInterfaceTest.jl
다른 AD 패키지

머신 러닝을 위한 Julia

확률 적 경사 하강법과 같은 경사 기반 최적화 방법을 신경망에 적용하려면 매개변수에 대한 손실 함수의 경사를 계산해야 합니다.
딥 러닝 모델은 크고 복잡해질 수 있으므로 임의의 함수를 취할 수 있는 기계가 있으면 좋을 것입니다.그리고 그 미분을 반환합니다 . 이를 자동 미분(AD)이라고 합니다.

참고: 이 강의에서는 여러 자동 미분 패키지를 소개합니다. 처음 로드하는 데 몇 분이 걸릴 수 있습니다.

동기 부여Julia AD 생태계

Julia는 12개가 넘는 AD 시스템을 보유하고 있습니다. 사용 가능한 패키지 목록은 juliadiff.org 에서 확인할 수 있습니다 . 목록은 유형별로 정렬되어 있습니다.

1. 역방향 모드
2. 정방향 모드
3. 상징적인
4. 유한 차분

그리고 그 외에도 좀 더 이색적인 접근법들이 있습니다. 이미 추상적으로 들리는 용어들이지만, 이러한 범주 내에서도 다음과 같은 차이점들이 존재합니다.

AD 시스템 연산자는 오버로딩 방식 인가요 , 아니면 소스 간(source-to-source) 방식 인가요 ? 어떤 표현 수준에서 동작하나요? 스칼라 함수에서만 작동하나요? 고차 AD를 허용하나요 ?

여러분은 이러한 용어에 익숙하지 않을 수 있으므로, 이 강의의 목적은 다양한 AD 패키지 간의 접근 방식의 차이점을 설명하고 각각의 장단점을 개략적으로 설명하는 것입니다.
이러한 목적을 위해, 우리는 한 걸음 물러나서 선형 사상 과 미분이라는 두 가지 기본적인 수학 개념을 다시 살펴보겠습니다 .

선형 맵

속성

선형 맵로 표현될 수 있습니다행렬.

Visualizations curtesy of Stephan Kulla under CC0 license.

예를 들어 많은 일반적인 기하학적 변환은 선형 맵입니다.변환행렬 표현각도별 회전투영에 대한-중심선반사를 통해-중심선스트레칭을 따라-중심선평행하게 전단-중심선압착 기초를 위해,.

구성 행렬 곱셈에 대한 연결구성두 개의 선형 맵,선형 맵이기도 합니다. 유한 차원 벡터 공간에서 선형 사상의 구성은 행렬 곱셈에 해당합니다.

행렬에 대한 연결

구성

파생상품

파생상품이란 무엇인가요?

미분가능성

야코비안

야코비안-벡터 곱

사슬 법칙