記事作成日:2023年10月31日


AI

新聞記事でAIに関する重要な英語の論文が紹介されていました。 その論文は経済研究へのAIの活用(特にLLMという言語モデル)に関する内容ですが、実際のビジネスでも活用できる内容と 考え、その翻訳をしてみました。 30ページほどの論文ですが、重要な部分だけを選択して英語と日本語訳の対比という形式で数回に分けて紹介します。

今回は全11回中の2回目です。

第1回 1 Introduction:はじめに
第2回 2 What Are LLMs?:LLMとは何か?
第3回 3 Applications:応用
第4回 3.1 Ideation:アイデア出し
第5回 3.2 Writing:執筆
第6回 3.3 Background Research:背景調査
第7回 3.4 Coding:コーディング
第8回 3.5 Data Analysis:データ分析
第9回 3.6 Mathematical Derivations:数学的導出
第10回 3.7 Summary:まとめ
第11回 4 Outlook and Concluding Thoughts:展望と考察

2 What Are LLMs?

2.1 Foundation Models As a New Paradigm

LLMs are a category of foundation models, which can be regarded as the new paradigm in artificial intelligence of the 2020s (Bommasani et al., 2021). Foundation models are large deep learning models, with parameter counts in the order of 1011 and grow ing. They are pre-trained on abundant data to create a foundation that can then be adapted for di erent applications via a process called fine-tuning. For example, an LLM can be fine-tuned to act as a chatbot (such as ChatGPT) or as system that generates computer code (such as Codex). As of early 2023, some of the cutting-edge LLMs are OpenAI’s GPT-3.5, DeepMind’s Chinchilla, Google’s PaLM and LaMDA and Anthropic’s Claude.

LLMとは何か?

2.1 新しいパラダイムとしての基礎モデル

LLM は基礎モデルの一種であり、2020年代に開始した人工知能の新しいパラダイムとみなすことができます。(Bommasani et al., 2021)。基礎モデルとは、大規模な深層学習モデルであり、モデルのサイズ、つまりパラメーターの数は10の11乗の次元まであり、今後もそのサイズが増え続けることが予想されます。これらの巨大なモデルは膨大な量のデータで訓練されており、その後できた学習済みモデルは、ファインチューニングと呼ばれるモデル調整のフェーズを経て、さまざまなアプリケーションやタスクに特化して使用できるようになります。例えば、GPTのような基盤モデルLLMはファインチューニングされてChatGPTのような対話型AIまたはコンピューターコードを生成するシステム (Codexなど)として機能できるようにパラメータの一部が調整できます。2023 年前半の時点で、最先端のLLMとして、OpenAIのGPT-3.5、DeepMindのChinchilla、GoogleのPaLMとLaMDA、Anthropic の Claude などが挙げられます。

The pre-training of foundation models uses massive amounts of compute and data in a process called self-supervised learning, whereby the model learns the structure inherent in the training data by successively predicting parts of the data that are masked. For example, to train an LLM, a model is fed text fragments with some words masked, and the model learns to predict what the missing words are. This process is performed on terabytes of data from Wikipedia, scientific articles, books, and other sources on the Internet.

基礎モデルの事前学習は、教師なし学習、別名、自己教師あり学習という過程で行われており、膨大な量のテキストデータ(コーパス)と計算リソースを必要とします。学習用のテキストの一部をマスクし、その部分を文の他の部分を頼りに推定しながら、つまり、文の「穴埋め問題」を繰り返し解くことによって、文章の構造やパターンを学びます。学習データの量はテラバイトにもおよび、wikipedia、科学論文、電子書籍その他インターネットからの文章から構成されています。

To predict the structure of its training data in a loss-minimizing way, the model needs to learn syntactic structures, relationships between words and the concepts they represent, the context of sentences and how diff erent words might interact in that context, and how different sentences are related to each other. For example, the system learns that “she loves cats and dogs” refers to animal-lovers whereas “it’s raining cats and dogs” refers to precipitation. During the training process, the model forms increasingly higher level abstract representations of concepts and their relationships in short, it develops an internal world model. Based on that world model, the foundation model can be fine-tuned for different applications.

損失関数を最小化しながら、訓練データの構造を予測するために、言語モデルは構文関係(係受け関係)を把握し、単語と単語の関係性を通して文脈の解析を行うことができます。同じ単語でも文脈によって異なる意味をすることを認識する必要があります。例えば「彼女は猫と犬が大好きです」は動物愛好家を指し、「土砂降りだ」は降水量を指すことを学習します。言語モデルは各概念と概念間の関係性をますます抽象的なレベルで抽出できるようになっています。そうするとモデルの内部で汎用的なモデルが形成されます。そのモデルに基づいて基盤モデルが他の異なる応用のためにファインチューニングされ、使用されることができます。

2.2 Scaling and Emergent Capabilities

What distinguishes foundation models and by extension LLMs from earlier generations of deep learning models is that their scale gives rise to increasingly broad capabilities. The deep learning models of much of the 2010s displayed powerful capabilities in specific applications such as recognizing images, but there remained a category difference between the broad capabilities of humans and the narrow capabilities of specific AI systems. That difference is starting to blur with the latest generation of LLMs, which display an increasingly broad range of capabilities. The overall performance of LLMs improves according to fairly predictable scaling laws, i.e., empirical regularities that have held for several generations of machine learning models. The scaling laws observe that the goodness-of-fit of LLMs, as measured by their log-loss, improves according to a power law function of the amount of training compute, i.e., the number of com putations performed to train the model, as well as of the parameter count and size of training data (Kaplan et al., 2020). These laws also imply that it is optimal to use increases in compute for scaling the parameter counts and the size of the training data of LLMs in approximately equal proportions (Ho mann et al., 2022).

2.2 スケール則と能力の向上

LLMなどの基盤モデルは、従来の深層学習モデルとどこが違うかというと、LLMのスケールが大きくなるにつれて、ますます汎用的な機能を提供できることです。2010年以降に発展したCNNを中心とする深層学習モデルは、画像認識などの特定の分野において従来の機械学習よりもはるかに高い性能を示してきました。しかし、その場合であっても、「特化型AI」の能力と人間が持つ広範囲の能力の間に明確な境目がありました。汎用的な性能を備えている最新のLLMによって、この境目がますます曖昧になってきています。LLMの性能はスケール則と呼ばれる経験則によって評価されます。モデルのサイズ(パラメータの数)や計算量、または訓練に使うデータ量の指数関数(べき乗則)としてモデルの性能が向上することです。

Over the past decade, the training compute of top-end deep learning models has doubled on average every six months, implying a thousand-fold increase every five years (Sevilla et al., 2022). This trend is also behind the rapid rise in the capabilities of LLMs and other foundation models in recent years. By some measures, today’s LLMs rival the human brain in their complexity, making it perhaps unsurprising that they are starting to exhibit eerily similar capabilities (Carlsmith, 2020). As the log-loss of LLMs continuously improves, new capabilities arise at discrete thresh olds. Many of the capabilities of LLMs are emergent - in the sense that they are not present in smaller models, suddenly emerge once a certain threshold is crossed, then improve quickly, and eventually mature. For example, Wei et al. (2022a) report that once a certain threshold of training compute is crossed, LLMs almost predictably develop the ability to perform arithmetic computations, to unscramble words, or to perform Q&A. Other signi cant capabilities that have emerged from language models include coding, translation, and rhyming. In fact, most of the useful capabilities for researchers that we document below have emerged only in recent years. An interesting phenomenon about many of these emergent capabilities is that they regularly surprise the creators of the systems - at the risk of anthropomorphizing, perhaps just like excellent students surprise their teachers. Many of the capabilities that emerge are discovered by chance after the systems have been released. This suggests that there may in fact be signi cant capabilities overhang, i.e., that many LLMs actually exhibit greater capabilities than what is known.

過去10年間の間、最先端の深層学習モデルに使われるコンピューティングコストは6ヶ月ごとに2倍になると観察されています。これは5年ごとに1000倍になることを示唆します。この傾向はLLMの近年の急速な性能の向上の背景にあります。見方によっては、現在のLLMは一部の人間の脳の複雑さと知能に匹敵します。今後、モデルとしての精度(損失の低さ)が上がるにつれて、離散的な閾値で、従来モデルにはなかったような新しい能力が現れてきて、そこからまた急速に改善していくでしょう。例えば、Wei et al.(2022a) の報告によると、一定量以上の計算量(データ量)が使用された時点で、LLMは予想通りに、高度な数値計算や解読や質疑応答ができるようになります。他に、コーディング、翻訳、韻を踏むといった能力も、コストを一定量以上投資した時点で、学習済みLLMから示されるようになります。実は、これ以降に挙げていく、研究者にとって有用な機能のほとんどは最近実現されたものです。これらの性能の多くについて興味深いこととしては、モデルを設計した人でさえ予想できなかったものがそれなりにあることです。しかも一部の機能は、システムとして一般向けにリリース後に発見されたものです。これは、私たちがまだ見出していない能力が今日のLLMに潜んでいるということを示唆します。ただし、擬人化、つまり人間が書いたのかAIが書いたのかがわからない「不透明」の状態に陥る危険性には注意が必要です。

参照



    この記事をシェア👉🏻



カテゴリー
タグ