당신은 그들에게 관심이 있습니까? OFFERS? 쿠폰을 사용하여 저장하세요 WHATSAPP o 전보!

GPT를 완전히 극복하는 아키텍처, Mamba란 무엇일까요? AI의 새로운 시대?

오늘은 좀 더 기술적으로 접근하고 싶습니다. 우리는 매일 인공지능에 대해 이야기하지만 그것이 무엇에 기반하고 어떻게 작동하는지 아는 것이 옳습니다. 이와 관련해 여러분께 소개해드리고 싶은 것은 맘바, 변화를 약속하는 새로운 아키텍처 언어 모델 오늘날 우리가 알고 있듯이. Mamba의 기능은 GPT의 기능과 비교할 때 매우 우수할 뿐만 아니라 이를 통해 수행할 수 있는 기능도 뛰어납니다.

Mamba는 인공 지능의 새로운 지평입니다

2016년 논문을 통해 소개된 Transformer 아키텍처관심은 당신이 필요로하는 전부입니다” Google의 언어 모델은 상호작용에서 맥락을 유지할 수 있게 함으로써 언어 모델의 획기적인 발전을 이루었습니다. 한마디로: 건축 Transformer는 GPT와 같은 모델을 만드는 데 사용되는 AI 모델입니다. (생성 사전 훈련된 변환기).

변압기 아키텍처의 작동 방식

Transformer 아키텍처의 핵심은 “아 텐치 오네“이를 통해 모델은 다른 텍스트를 생성하거나 처리하는 동안 한 텍스트의 특정 부분에 집중할 수 있습니다. 이 메커니즘을 통해 Transformer는 텍스트 내의 컨텍스트와 복잡한 관계를 이해하는 데 특히 효과적입니다. 실제로 GPT와 같은 Transformer 아키텍처 기반 모델은 두 단계를 통해 언어를 생성하고 이해하는 방법을 배웁니다. 주요 항목: 훈련(훈련) 및 추론(텍스트 생성).
동안 훈련, 모델은 언어 구조, 단어 간의 관계, 문맥 등을 이해하기 위해 대규모 텍스트 데이터 세트에 대해 훈련되었습니다. 의 단계에서 추론, 모델은 학습한 내용을 사용하여 새 텍스트를 생성하고, 질문에 답하고, 언어를 번역하고, 기타 언어 처리 작업을 수행합니다.

그러나 Mamba의 출현은 새로운 시대의 시작을 의미할 수 있습니다. 이 아키텍처는 다음을 약속합니다. 보다 효율적인, GPT와 같은 현재 모델이 직면한 몇 가지 주요 과제를 극복할 수 있습니다. 특히 Mamba를 유망한 아키텍처로 만드는 세 가지 주요 측면은 다음과 같습니다.

  • 추론 비용 감소: Mamba의 주요 측면은 추론 비용이 크게 절감된다는 것입니다. 앞서 말했듯이 추론은 AI 모델이 훈련을 받은 후 학습한 내용을 새로운 데이터에 적용하여 텍스트나 이미지를 생성하는 프로세스입니다. GPT-3 또는 GPT-4와 같은 복잡한 모델에서 이 프로세스는 계산 리소스 측면에서 비용이 많이 들 수 있습니다. 맘바는 약속해요 이러한 비용을 최대 5배까지 절감 특히 신속한 응답 생성이 필요하거나 대규모 데이터 세트를 사용하는 애플리케이션의 경우 상당한 영향을 미칠 수 있는 Transformer 기반 모델과 비교합니다.
  • 선형 주의 계산 비용: Mamba의 두 번째 장점은 주의력 계산의 효율성에 관한 것입니다. 트랜스포머 모델에서는 비용이 증가한다 잠재적 인 (정확하게는 권력의 수준에서, 비유적인 표현은 아닙니다) 텍스트의 길이가 길어질수록. 이는 텍스트가 길수록 이를 처리하는 데 더 많은 리소스가 필요하여 일부 응용 프로그램에서 모델의 실용성이 제한된다는 것을 의미합니다. Mamba는 다음과 같은 솔루션을 제안합니다. 비용은 선형적으로 증가합니다. 주의 창의 크기와 비교하여 긴 텍스트 처리를 더 관리하기 쉽고 계산 측면에서 덜 부담스럽게 만듭니다.
  • 매우 큰 입력: Mamba는 최대 입력 창을 처리할 수 있습니다. 최대 1백만 개의 토큰n, Transformer 아키텍처로 가능한 것보다 훨씬 더 많은 것입니다. 이는 Mamba가 이론적으로 다음을 수행할 수 있음을 의미합니다. 책 전체와 같이 매우 긴 텍스트를 분석하고 이해합니다., 맥락에 맞게 일관성과 세부정보를 유지합니다. 예를 들어, 그는 처음부터 끝까지 인물, 줄거리, 주제를 명확하게 이해하면서 소설 전체를 분석할 수 있습니다.

Mamba의 약속에도 불구하고, 종이 솔레바 확장성에 대한 의문특히 4억 개의 매개변수가 있는 GPT-175와 같은 대규모 모델과 비교할 때 더욱 그렇습니다. 확장성은 매우 간단한 용어로 다음을 의미합니다. 효율성을 잃지 않고 작업 증가나 크기 증가를 처리할 수 있는 시스템의 능력. 소수의 고객으로 잘 운영되는 작은 레스토랑을 상상해 보십시오. 레스토랑이 인기를 얻고 더 많은 고객을 확보하기 시작하면 서비스나 음식의 품질을 저하시키지 않고 이러한 증가를 처리할 수 있어야 합니다. 성공하면 "확장 가능"합니다.

현재 상태의 Mamba는 테스트를 거쳤습니다. 3억 개의 매개변수만으로. 따라서 더 큰 규모로 확장할 때 성능과 효율성이 유지되거나 향상될 수 있는지 여부는 여전히 불확실합니다.

지안루카 코 부치
지안루카 코 부치

코드, 언어 및 언어, 인간-기계 인터페이스에 대한 열정. 기술적 진화라는 모든 것이 나에게 관심이 있습니다. 나는 "첫 번째 통과"가 아닌 신뢰할 수 있는 소스에 의존하여 내 열정을 최대한 명확하게 공개하려고 노력합니다.

구독 신청
통지
손님

0 댓글
인라인 피드백
모든 댓글보기
XiaomiToday.it
심벌 마크