CerebrasがCS-2ウェハースケールシステムで学習した7つの新しいGPTモデルを公開

産業	経済	技術	ゲーム	自動車	メディア	社会	生活	テーマ	フォト	映像	連載
一般航空/防産物流/運送建設/土木エネルギーマシーン素材バイオ/医学食品美容ファッション育児	一般政策金融証券不動産スタートアップフランチャイズリテール海外	コンピュータモバイルディバイス部品エンタープライズ通信インターネットセキュリティーレビュー情報	PC コンソールモバイル eスポーツ開発レビュー情報	自動車オートモーティブアフターマーケット自動車文化交通レビュー情報	放送エンターテイメント映画音楽韓流レビュー情報	一般国会裁判所政府教育科学環境雇用福祉メディア社会貢献オピニオン	一般旅行レジャーグルメ祭りイベント地域国際本宗教健康スポーツ	テーマ	フォト	映像	連載

Cerebras GPTが学習精度、効率、そして開かれたモデルとしてベンチマークを確立

カリフォルニア州サニーベール--(BUSINESS WIRE)--（ビジネスワイヤ） -- 本日、ジェネレーティブAI向け人工知能(AI)コンピュートのパイオニアであるCerebras Systemsは、GPTベースの大規模言語モデル(LLM)、研究コミュニティによるオープンユースに向け7つの学習したモデルをリリースすることを発表しました。これは、企業が非GPUベースのAIシステムを使用して13BパラメータまでのLLMを学習させ、業界標準のApache 2.0ライセンスを通じてモデル、重み、学習レシピを共有する初めての試みです。7つのモデルはすべて、AIスーパーコンピュータ「Cerebras Andromeda」の16台のCS-2システムで学習を行ったものです。

OpenAIのChatGPTを先駆けとして、LLMの急成長は、より強力で高性能なAIチップの開発競争に拍車をかけています。多くの企業がNvidia^®GPUの代替を期待する一方で、大規模なモデルを学習する能力と、その結果を許諾付きライセンスでオープンソース化する意欲の両方を示した企業はありません。実際、競争圧力により、制限付きライセンスでさえも、LLMを公開する企業の意欲は組織的に低下しています(最近の例としてはGPT-4があります)。これは所有権を集中させ、エコシステムの成長を制限し、安全性のリスクを生じさせることになります。

Cerebrasの本日のリリースは、これらの課題に対して直接的に取り組むものです。Cerebrasの研究者は、AI ハードウェア企業としては初めて、スーパーコンピュータAndromeda上で111M、256M、590M、1.3B、2.7B、6.7B、13Bパラメーターの7つのGPTモデルを学習させました。通常、数ヶ月かかるこの作業を数週間で完了できたのは、Andromedaを構成するCerebras CS-2システムの驚異的な速度と、分散コンピューティングの問題を解決するWeight Streamingアーキテクチャの能力によるものです。これらの結果は、Cerebrasのシステムが、今日の最も大規模で最も複雑なAIワークロードを学習できることを実証しています。

これは、最先端のトレーニング効率化技術を使用してトレーニングされたGPTモデル群が公開された初めての例です。これらのモデルは、与えられた計算予算で最高の精度になるように学習されているため（チンチラレシピを用いた学習効率）、既存の公開モデルよりも学習時間、学習コスト、および使用電力量が低くなっています。

Cerebrasの共同創業者兼チーフ・ソフトウェア・アーキテクトであるSean Lieは、「本格的な大規模モデルのトレーニングができる組織はそう多くはなく、専用のAIハードウェアでそれを行っている企業はより少ないでしょう。完全に学習された7つのGPTモデルをオープンソースコミュニティに公開することで、Cerebras CS-2システムのクラスタが効率的で、最大規模のAI課題（通常は数百、数千のGPUが必要）をいかに迅速に解決できるかがわかります。これらのモデルと私たちの学びをAIコミュニティと共有できることを非常に嬉しく思います。」と、述べています。

LLM開発のコストと複雑さが増すにつれ、企業は自社モデルの一般公開を見合わせるようになりました。Cerebrasは全7モデルをオープンな研究とアクセスを促進するため、そのトレーニング方法、トレーニングウェイトを寛容型(permissive)のApache 2.0ライセンスで研究コミュニティに公開します。このリリースにはいくつかの利点があります：

トレーニングウェイトは、ファインチューニングのため高精度な学習済みモデルを提供します。適度な量のカスタムデータを適用することで、誰でも最小限の作業で、強力で業界特有のアプリケーションを作成することができます。
このモデルの様々なサイズとそれに付随するチェックポイントにより、AI研究者は新しい最適化とワークフローを作成し、テストすることができ、広くコミュニティに貢献することができます。
業界標準のApache 2.0ライセンスで公開することで、これらのモデルはロイヤリティなしで研究または商業ベンチャーに利用することができます。

今回発表されたモデルは、GPTアーキテクチャを基に構築されており、多くの技術的貢献をしています：

公開データセットに基づく新しいスケーリング則の導出。スケーリング則は、半導体におけるムーアの法則と同様にAIにとって基本的なものです。特にこれにより、研究者が与えられた計算トレーニングの予算が、モデルの性能にどのように反映されるかを予測することを可能にします。Cerebrasのスケーリング則は、OpenAIとDeepMindが行った先行研究を拡張し、オープンデータセットを使用して導き出した初のスケーリング則であるため、AIコミュニティによる再現性があります。
シンプルでデータ並列のみのアプローチによるトレーニングの実証。GPU上での従来のLLMトレーニングは、パイプライン、モデルとデータ並列化技術の複雑な融合が必要でした。CerebrasのWeight Streamingアーキテクチャは、コードやモデルの修正が不要なデータ並列のみのモデルであり、任意の大規模モデルへの拡張が可能です。
Cerebras GPTは、あらゆるモデルサイズにおいて計算効率の高いGPTモデルの最初のファミリーです。既存のオープンなGPTモデルは、固定数のデータ・トークンでトレーニングされます。Cerebras GPTは、Chinchillaのトレーニングレシピをすべてのモデルサイズに適用することで、広く使用できる新しい高精度なベースラインとなります。

「大規模言語モデルを大規模にトレーニングすることは、技術的に困難な取り組みです。今回のリリースで、Cerebrasはこの規模のモデル群をトレーニングしてオープンソース化した数少ない組織の仲間入りをしました。私たちは、PileやEval Harnessなどのリリースでこの作業を容易にするよう取り組んできましたが、Cerebrasが私たちの作業を基に、世界中の研究者にとって有用なオープンモデルのファミリーを生み出すことを非常に楽しみにしています。」と、EleutherAIのエグゼクティブディレクターであるStella Bidermanは述べました。

Cambrian AIの創業者兼主席アナリストであるKarl Freundは、「GPモデルの7つをリリースすることで、CerebrasはCS-2システムとAndromedaスーパーコンピュータが最高のトレーニングプラットフォームであることを示すだけでなく、Cerebrasの研究者をAI実践者の上位に位置づけることができました。エンドツーエンドのAIトレーニングインフラを導入し、最大規模のLLMを最先端の精度でトレーニングできる企業は、世界でもほんの一握りです。Cerebrasは今、その中に数えられるべきでしょう。さらに、これらのモデルを寛容なApache 2.0ライセンスでオープンソースコミュニティに公開することで、CerebrasはAIが人類に広く利益をもたらすオープンテクノロジーであり続けることを保証するためのコミットメントを示しています。」と、述べています。

Cerebras GPT全7モデルは、Hugging FaceとGitHub上のCerebras Model Zooですぐに利用できます。これらのモデルの学習に使用したAIスーパーコンピュータAndromedaは、オンデマンドでご利用可能です。

技術的な詳細にご興味のある方は、Cerebrasがテクニカルブログで7モデルの詳細と、それらが生み出すスケーリング則について公開しています。また、研究論文も近日中に公開する予定です。

Cerebras Systemsについて

Cerebras Systemsは、先駆的なコンピューターアーキテクト、コンピューター科学者、ディープラーニング研究者、そしてあらゆるタイプのエンジニアからなるチームです。私たちは、生成AIの作業を加速させるという唯一の目的のために設計された、新しいクラスのコンピュータシステムを構築するために集まりました。当社の主力製品であるCS-2システムは、世界最大かつ最速のAIプロセッサを搭載しており、分散コンピューティングの複雑さを回避することで、大規模モデルのトレーニングをシンプルかつ容易にします。Cerebrasのソリューションは、クラウドのCerebras Model Studioやオンプレミスでも利用可能です。

本記者発表文の公式バージョンはオリジナル言語版です。翻訳言語版は、読者の便宜を図る目的で提供されたものであり、法的効力を持ちません。翻訳言語版を資料としてご利用になる際には、法的効力を有する唯一のバージョンであるオリジナル言語版と照らし合わせて頂くようお願い致します。

Contacts

Kim Ziesemer: pr@zmcommunications.com

CerebrasがCS-2ウェハースケールシステムで学習した7つの新しいGPTモデルを公開

最近の記事

アクセスランキング

技術

自動車

ゲーム

メディア