딥 러닝의 미래는 다음 3가지 학습 패러다임으로 나눌 수 있습니다.
딥 러닝의 미래는 다음 3가지 학습 패러다임으로 나눌 수 있습니다.
하이브리드, 복합 및 축소 학습
원본 웹사이트:
딥 러닝은 수백만 또는 수십억 개의 변수에 의해 모양이 결정되고 지속적으로 변경되는 알고리즘인 신경망을 중심으로 하는 광대한 분야입니다. 격일로 압도적인 양의 새로운 방법과 기술이 제안되고 있는 것 같습니다.
그러나 일반적으로 현대의 딥러닝은 세 가지 근본적인 학습 패러다임으로 나눌 수 있습니다. 각각의 내부에는 딥 러닝의 현재 능력과 범위를 높이는 데 상당한 잠재력과 관심을 제공하는 학습에 대한 접근 방식과 신념이 있습니다.
하이브리드 학습 — 현대의 딥 러닝 방법은 레이블이 지정되지 않은 방대한 양의 사용되지 않은 데이터를 수용하기 위해 지도 학습과 비지도 학습의 경계를 어떻게 넘을 수 있습니까?
복합 학습 — 어떻게 다른 모델이나 구성 요소를 창의적인 방법으로 연결하여 부품의 합보다 더 큰 복합 모델을 생성할 수 있습니까?
학습 감소 — 동일하거나 더 큰 예측력을 유지하면서 성능 및 배포 목적을 위해 모델의 크기와 정보 흐름을 모두 줄일 수 있는 방법은 무엇입니까?
딥 러닝의 미래는 이 세 가지 학습 패러다임에 있으며, 각각은 밀접하게 상호 연결되어 있습니다.
하이브리드 학습
이 패러다임은 지도 학습과 비지도 학습의 경계를 넘나드는 것을 추구합니다. 레이블이 지정된 데이터가 부족하고 비용이 많이 들기 때문에 비즈니스 컨텍스트에서 자주 사용됩니다. 본질적으로 하이브리드 학습은 질문에 대한 답변입니다.
감독되지 않은 문제를 해결하기 위해 감독 방법을 어떻게 사용할 수 있습니까?
첫째, 반 지도 학습은 레이블이 지정된 데이터가 거의 없는 지도 문제에서 예외적으로 잘 수행할 수 있다는 점에서 기계 학습 커뮤니티에서 기반을 얻고 있습니다. 예를 들어 잘 설계된 준지도 GAN(Generative Adversarial Network)은 MNIST 데이터 세트에서 90% 이상의 정확도를 달성했습니다. 단 25개의 훈련 예시.
Semi-supervised learning은 비지도 데이터는 많지만 지도 데이터의 양이 적은 데이터 세트를 위해 설계되었습니다. 전통적으로 지도 학습 모델은 데이터의 한 부분에 대해 훈련되고 비지도 모델은 다른 부분에 대해 학습되지만 반 지도 모델은 레이블이 지정된 데이터를 레이블이 지정되지 않은 데이터에서 추출한 통찰력과 결합할 수 있습니다.

semi-supervised GAN(SGAN으로 약칭)은 표준의 적응입니다. 생성적 적대 네트워크 모델. 판별자는 이미지 생성 여부를 나타내기 위해 모두 0/1을 출력하지만 항목의 클래스도 출력합니다(다중 출력 학습).
이것은 실제 이미지와 생성된 이미지를 구별하는 판별자 학습을 통해 구체적인 레이블 없이 구조를 학습할 수 있다는 아이디어를 전제로 합니다. 소량의 레이블이 지정된 데이터의 추가 강화를 통해 반 지도 모델은 최소한의 지도 데이터로 최고의 성능을 달성할 수 있습니다.
SGAN 및 반 지도 학습에 대해 자세히 알아볼 수 있습니다. 여기.
GAN은 하이브리드 학습의 또 다른 영역에도 관여합니다. 자체 감독 감독되지 않은 문제가 감독되는 문제로 명시적으로 구성되는 학습. GAN은 생성기를 도입하여 인위적으로 감독 데이터를 생성합니다. 실제/생성된 이미지를 식별하기 위해 레이블이 생성됩니다. 감독되지 않은 전제에서 감독되는 작업이 생성되었습니다.
또는 다음의 사용법을 고려하십시오. 인코더-디코더 모델 압축을 위해. 가장 단순한 형태는 일종의 병목 현상, 압축된 형태를 나타내기 위해 중간에 소량의 노드가 있는 신경망입니다. 양쪽에 있는 두 섹션은 인코더와 디코더입니다.

네트워크는 다음을 생성하도록 훈련됩니다. 같은 벡터 입력으로 출력(감독되지 않은 데이터에서 인위적으로 생성된 감독 작업). 중간에 의도적으로 배치된 병목 현상이 있기 때문에 네트워크는 정보를 수동적으로 전달할 수 없습니다. 대신 디코더에서 다시 합리적으로 디코딩할 수 있도록 입력 내용을 작은 단위로 보존하는 가장 좋은 방법을 찾아야 합니다.
훈련 후에 인코더와 디코더는 분리되고 압축되거나 인코딩된 데이터의 수신단에서 사용되어 손실된 데이터가 거의 또는 전혀 없는 극히 작은 형태의 정보를 전송할 수 있습니다. 데이터의 차원을 줄이는 데에도 사용할 수 있습니다.
또 다른 예로, 방대한 텍스트 모음(디지털 플랫폼의 댓글)을 생각해 보십시오. 일부 클러스터링을 통해 또는 다양한 학습 방법을 사용하면 텍스트 모음에 대한 클러스터 레이블을 생성한 다음 이를 레이블로 처리할 수 있습니다(클러스터링이 잘 수행된 경우).
각 클러스터가 해석된 후(예: 클러스터 A는 제품에 대해 불평하는 의견을 나타내고 클러스터 B는 긍정적인 피드백을 나타냄) 다음과 같은 심층 NLP 아키텍처 버트 그런 다음 완전히 레이블이 지정되지 않은 데이터와 최소한의 인간 개입으로 새 텍스트를 이러한 클러스터로 분류하는 데 사용할 수 있습니다.
이것은 감독되지 않은 작업을 감독되는 작업으로 변환하는 매력적인 응용 프로그램입니다. 모든 데이터의 대다수가 비지도 데이터인 시대에 하이브리드 학습으로 지도 학습과 비지도 학습 사이의 경계를 넘나드는 창의적인 다리를 구축하는 데는 엄청난 가치와 잠재력이 있습니다.
복합 학습
복합 학습은 하나의 모델이 아닌 여러 모델의 지식을 활용하려고 합니다. 정적 및 동적 정보의 고유한 조합 또는 주입을 통해 딥 러닝은 단일 모델보다 이해와 성능 면에서 지속적으로 더 깊어질 수 있다는 믿음입니다.
전이 학습은 복합 학습의 명백한 예이며 유사한 작업에 대해 사전 훈련된 모델에서 모델의 가중치를 빌린 다음 특정 작업에 대해 미세 조정할 수 있다는 아이디어를 전제로 합니다. 다음과 같은 사전 훈련된 모델 처음 또는 VGG-16은 여러 다른 클래스의 이미지를 구별하도록 설계된 아키텍처 및 가중치로 구축됩니다.
동물(고양이, 개 등)을 인식하도록 신경망을 훈련시킨다면 좋은 결과를 얻는 데 너무 오래 걸리기 때문에 합성곱 신경망을 처음부터 훈련하지 않을 것입니다. 대신 이미지 인식의 기본 사항을 이미 저장한 Inception과 같은 사전 훈련된 모델을 사용하고 데이터 세트에서 몇 가지 추가 에포크를 훈련합니다.
유사하게, 관계에 따라 임베딩 공간에서 다른 단어에 물리적으로 더 가까운 단어를 매핑하는 NLP 신경망의 단어 임베딩(예: '사과' 및 '오렌지'는 '사과' 및 '트럭'보다 거리가 더 작음). GloVe와 같은 사전 훈련된 임베딩을 신경망에 배치하여 단어를 숫자로 의미 있는 엔터티에 이미 효과적으로 매핑한 것부터 시작할 수 있습니다.
덜 분명히, 경쟁은 지식 성장을 자극할 수도 있습니다. 예를 들어, Generative Adversarial Networks는 기본적으로 두 개의 신경망을 서로 맞붙게 하여 복합 학습 패러다임에서 차용합니다. Generator의 목표는 Discriminator를 속이는 것이고 Discriminator의 목표는 속지 않는 것입니다.
모델 간의 경쟁을 '적대적 학습'이라고 하며, 이를 참조하는 다른 유형의 적대적 학습과 혼동하지 마십시오. 악의적인 입력 설계 및 모델의 약한 결정 경계 악용.
적대적 학습은 일반적으로 모델의 성능이 다른 모델의 성능과 관련하여 표시될 수 있는 다양한 유형의 모델을 자극할 수 있습니다. 생성적 적대 네트워크가 하위 필드의 유일한 눈에 띄는 생성인 것과 함께 적대적 학습 분야에서 수행해야 할 연구가 많이 있습니다.
반면 경쟁 학습은 적대적 학습과 유사하지만 노드별로 수행됩니다. 노드는 입력 데이터의 하위 집합에 응답할 권리를 놓고 경쟁합니다. 경쟁 학습은 일부 무작위로 분포된 가중치를 제외하고 뉴런 세트가 모두 동일한 '경쟁 계층'에서 구현됩니다.
각 뉴런의 가중치 벡터를 입력 벡터와 비교하여 유사도가 가장 높은 '승자 독식' 뉴런이 활성화됩니다(출력 = 1). 나머지는 '비활성화'됩니다(출력 = 0). 이 비지도 기술은 자기 조직화 지도 그리고 기능 발견.
복합 학습의 또 다른 흥미로운 예는 다음과 같습니다. 신경 아키텍처 검색. 간단히 말해서, 강화 학습 환경의 신경망(일반적으로 반복적임)은 데이터 세트에 대한 최상의 신경망을 생성하는 방법을 학습합니다. 알고리즘이 사용자에게 가장 적합한 아키텍처를 찾습니다! 이론에 대한 자세한 내용을 읽을 수 있습니다 여기 그리고 파이썬에서의 구현 여기.
앙상블 방법은 또한 복합 학습의 필수 요소입니다. 심층 앙상블 방법은 매우 효과적인, 인코더 및 디코더와 같은 종단 간 모델 스태킹이 인기를 얻었습니다.
복합 학습의 대부분은 서로 다른 모델 간의 연결을 구축하는 고유한 방법을 찾는 것입니다. 라는 생각을 전제로 하고 있으며,
매우 큰 단일 모델은 각각 작업의 일부를 전문화하도록 위임된 여러 개의 작은 모델/구성 요소보다 성능이 떨어집니다.
예를 들어 레스토랑용 챗봇을 구축하는 작업을 생각해 보십시오.

우리는 그것을 세 부분으로 나눌 수 있습니다: 유쾌함/잡담, 정보 검색, 그리고 행동. 그리고 각각을 전문화하는 모델을 디자인할 수 있습니다. 또는 단일 모델을 위임하여 세 가지 작업을 모두 수행할 수 있습니다.

구성 모델이 공간을 덜 차지하면서 더 잘 수행할 수 있다는 것은 놀라운 일이 아닙니다. 또한 이러한 종류의 비선형 토폴로지는 다음과 같은 도구를 사용하여 쉽게 구성할 수 있습니다. 케라스의 기능적 API.
비디오 및 3차원 데이터와 같이 증가하는 데이터 유형의 다양성을 처리하기 위해 연구자는 창의적인 구성 모델을 구축해야 합니다.
작문 학습과 미래에 대해 자세히 알아보기 여기.
학습 감소
특히 딥 러닝 연구에 대한 흥분의 진원지인 NLP에서 모델의 크기가 커지고 있습니다. 많이. 가장 최근의 GPT-3 모델은 175 10 억 매개변수. 그것을 비교 버트 목성을 모기에 비유하는 것과 같습니다(문자 그대로가 아니라). 딥러닝의 미래는 더 큰가요?

틀림없이, 아닙니다. GPT-3은 분명히 매우 강력하지만 인류에 가장 큰 영향을 미치는 '성공적인 과학'이 과거에 반복적으로 나타났습니다. 학계가 현실에서 너무 멀리 벗어날 때마다 그것은 일반적으로 모호하게 사라집니다. 1900년대 후반에 사용 가능한 데이터가 너무 적어서 아이디어가 아무리 독창적이더라도 쓸모가 없었기 때문에 신경망이 잠시 잊혀진 경우가 바로 이 경우였습니다.
GPT-3은 또 다른 언어 모델이며 설득력 있는 텍스트를 작성할 수 있습니다. 응용 프로그램은 어디에 있습니까? 예, 예를 들어 쿼리에 대한 답변을 생성할 수 있습니다. 그러나 이를 수행하는 더 효율적인 방법이 있습니다(예: 지식 그래프를 탐색하고 BERT와 같은 더 작은 모델을 사용하여 답변을 출력).
단순히 더 큰 모델은 말할 것도 없고 GPT-3의 엄청난 크기가 고갈 계산 능력.
"무어의 법칙은 일종의 활력이 고갈되고 있습니다."
- 사티아 나델라, 마이크로소프트 CEO
그 대신, 우리는 스마트 냉장고가 자동으로 식료품을 주문하고 드론이 스스로 도시 전체를 탐색할 수 있는 AI 내장 세상으로 나아가고 있습니다. 강력한 기계 학습 방법을 PC, 휴대폰 및 소형 칩에 다운로드할 수 있어야 합니다.
이를 위해서는 성능을 유지하면서 신경망을 더 작게 만드는 경량 AI가 필요합니다.
직간접적으로 딥 러닝 연구의 거의 모든 것은 필요한 양의 매개변수를 줄이는 것과 관련이 있으며, 이는 일반화 및 성능 향상과 관련이 있습니다. 예를 들어, 컨볼루션 레이어의 도입은 신경망이 이미지를 처리하는 데 필요한 매개변수의 수를 크게 줄였습니다. 반복 레이어는 동일한 가중치를 사용하면서 시간 개념을 통합하여 신경망이 시퀀스를 더 적은 매개변수로 더 잘 처리할 수 있도록 합니다.
임베딩 레이어는 추가 매개변수에 부담이 가지 않도록 엔티티를 물리적 의미가 있는 숫자 값에 명시적으로 매핑합니다. 한 해석으로는, 탈락 레이어는 매개변수가 입력의 특정 부분에서 작동하는 것을 명시적으로 차단합니다. L1/L2 정규화 네트워크는 매개변수가 너무 커지지 않도록 하고 각각이 정보 가치를 최대화하여 모든 매개변수를 활용하도록 합니다.
특수 계층의 생성으로 네트워크는 더 복잡하고 더 큰 데이터에 대해 점점 더 적은 매개변수를 필요로 합니다. 다른 최신 방법은 명시적으로 네트워크를 압축하려고 합니다.
신경망 가지치기 네트워크의 출력에 가치를 제공하지 않는 시냅스와 뉴런을 제거하려고 합니다. 가지치기를 통해 네트워크는 자체적으로 거의 모든 것을 제거하면서 성능을 유지할 수 있습니다.

다음과 같은 다른 방법 환자 지식 증류 예를 들어 사용자의 전화에 다운로드할 수 있는 형식으로 큰 언어 모델을 압축하는 방법을 찾습니다. 에 필요한 고려사항이었다. 구글 신경 기계 번역(GNMT) 시스템, 오프라인에서 액세스할 수 있는 고성능 번역 서비스를 만드는 데 필요한 Google 번역을 지원합니다.
본질적으로 축소 학습은 배포 중심 설계를 중심으로 합니다. 이것이 학습 감소에 대한 대부분의 연구가 기업의 연구 부서에서 나오는 이유입니다. 배포 중심 설계의 한 측면은 데이터 세트에 대한 성능 메트릭을 맹목적으로 따르지 않고 모델이 배포될 때 잠재적인 문제에 초점을 맞추는 것입니다.
예를 들어 앞서 언급한 적대적 입력 네트워크를 속이도록 설계된 악의적인 입력입니다. 표지판에 스프레이 페인트나 스티커를 붙이면 자율 주행 자동차가 제한 속도를 훨씬 초과하여 가속하도록 속일 수 있습니다. 책임감 있는 축소 학습의 일부는 사용하기에 충분히 가벼운 모델을 만드는 것뿐만 아니라 데이터 세트에 표시되지 않는 코너 케이스를 수용할 수 있도록 하는 것입니다.
축소 학습은 아마도 딥 러닝 연구에서 가장 주목을 받지 못하고 있을 것입니다. "가능한 아키텍처 크기로 좋은 성능을 달성할 수 있었습니다."가 "우리는 다음으로 구성된 아키텍처로 최첨단 성능을 달성했습니다." 수십억 개의 매개변수"
필연적으로 더 높은 비율에 대한 과장된 추구가 사라지면 혁신의 역사가 보여주듯이 실제로는 실용적인 학습인 축소 학습이 더 많은 관심을 받게 될 것입니다.
요약
하이브리드 학습은 지도 학습과 비지도 학습의 경계를 넘나드는 것을 추구합니다. semi-supervised 및 self-supervised learning과 같은 방법은 레이블이 지정되지 않은 데이터에서 귀중한 통찰력을 추출할 수 있으며, 이는 감독되지 않은 데이터의 양이 기하급수적으로 증가함에 따라 매우 가치 있는 것입니다.
작업이 더 복잡해짐에 따라 복합 학습은 하나의 작업을 여러 간단한 구성 요소로 분해합니다. 이러한 구성 요소가 함께 또는 서로에 대해 작동할 때 결과는 더 강력한 모델입니다.
딥 러닝이 과장된 단계를 벗어나면서 축소 학습은 많은 관심을 받지 못했지만 곧 실용성과 배포 중심 디자인이 등장할 것입니다.
읽어 주셔서 감사합니다!
성명서: 학술 교류 전용. 이 글의 저작권은 원저자에게 있습니다. 이상이 있으면 연락하여 삭제해 주십시오.