記事作成日:2023年11月1日


AI

新聞記事でAIに関する重要な英語の論文が紹介されていました。 その論文は経済研究へのAIの活用(特にLLMという言語モデル)に関する内容ですが、実際のビジネスでも活用できる内容と 考え、その翻訳をしてみました。 30ページほどの論文ですが、重要な部分だけを選択して英語と日本語訳の対比という形式で数回に分けて紹介します。

今回は全11回中の3回目です。

第1回 1 Introduction:はじめに
第2回 2 What Are LLMs?:LLMとは何か?
第3回 3 Applications:応用
第4回 3.1 Ideation:アイデア出し
第5回 3.2 Writing:執筆
第6回 3.3 Background Research:背景調査
第7回 3.4 Coding:コーディング
第8回 3.5 Data Analysis:データ分析
第9回 3.6 Mathematical Derivations:数学的導出
第10回 3.7 Summary:まとめ
第11回 4 Outlook and Concluding Thoughts:展望と考察

3 Applications

This section demonstrates use cases of LLMs in economic research classified along six domains: ideation, writing, background research, coding, data analysis, and mathematical derivations. For each domain, I will provide a general description and a few specific use cases for how to take advantage of LLM capabilities. I have attempted to refrain from cherry-picking and illustrate both the capabilities and failures of the LLMs I explored to provide a balanced version of their capabilities as of early 2023.

3 応用

本章では、6つの領域にわたって、経済学の研究におけるLLMの活用例を示します。これらの領域とは、アイデア出し、執筆、背景調査、コーディング、データ分析、数学的導出です。各領域について、LLMの機能を最大限に活用するために、一般的な手段及びいくつかの具体例を示します。2023年前半の時点でのLLMの性能の正しい像を与えるために、私は良いところだけ見せることをせずに、LLMの能力とよくある失敗の両方の側面からバランスをとりながら説明したいと思っています。

Unless otherwise stated, I am using the leading publicly available system at the time of writing, GPT-3 (text-davinci-003), which is slightly more powerful than ChatGPT but generates similar output. Interested users can register and access the system via a simple web interface at https://platform.openai.com/playground. To maximize reproducibility, I set the “Temperature” parameter of the model to 0, which makes the responses provided by the system deterministic. Let me describe a few important limitations of this particular LLM that potential users should be aware of. The system is trained on data that cuts off in 2021, so it has no knowledge of more recent events. It cannot access the Internet - the text it generates is based solely on the parameters acquired during the training process. Moreover, it has no memory so information does not carry over from one session to the other. The amount of text that it can process is limited to 4000 tokens per request, corresponding to about 3000 words, with the limit applying to the sum of the user prompt and the completion. Furthermore, note that the results generated by an LLM change depending on the prompt - even small changes in prompts, such as different spacing or punctuation, can lead to completely different outputs. This makes it important for users to experiment with di erent prompts and to learn how to optimally engineer their prompts. Finally, let me add a reminder that ultimate responsibility for any output produced by LLMs always rests with the human user.

特記がなければ、本記事の執筆時点では、公開されているモデルの主流であるGPT-3を使用しています。GPT-3はChatGPTよりわずかに強力と言われているが、同様の出力を生成すると思ってください。読者としては、もし興味があれば、こちらのウェブインターフェースに登録すれば、システムにアクセスできます。 https://platform.openai.com/playground

再現性を最大化するために、私は「Temperature(温度)」のパラメータを0に設定しています。そうすると、システムから出力される応答が決定的なものになります。ここでは、ユーザーが注意すべき、システムのいくつかの限界について説明したいと思います。本システムは2021年までのデータでのみ事前学習されています。そのため、最新の情報に関する質問に正しく答えることができません。さらに、インターネットから情報を取得してくることができません。出力されるコンテンツは完全に事前学習の結果に基づいて、パラメータを用いて確率的に生成されたものです。さらに、メモリがないので、セッションをまたがっての情報の保持と再利用が可能ではありません。そして、処理できるテキストの量はリクエストごとに4000トークンまでとなります。これはおおよそ3000の単語に相当します。この限界の対象は、プロンプトの長さと完成されたコンテンツの合算です。さらに、プロンプトによって、LLMの出力が変わることも知っておいてください。プロンプトの中の些細な変更、スペースや句読点の入れ方でさえ、完全に異なる回答に導くことがあります。このことから、異なるプロンプトで試行錯誤しながら、意図する応答が得られるための工夫を見出すことが重要です。より質のいい回答をLLMから得られるためのこのような技術をプロンプトエンジニアリングともいいます。最後に、LLMが偽情報を出す可能性は言うまでもなくありますので、コンテンツの利用にあたって、その責任は完全に利用者が背負うことになります。

One common theme in all the applications I will demonstrate is that LLMs exhibit such quick response times and low transaction cost that they are useful for outsourcing micro tasks in which they are still error-prone and in which similarly capable human research assistants would not be competitive. For example, I would not resort to human research assistance for micro-tasks such as spelling out the first-order conditions of an optimization problem while I am writing a paper - the associated delay would be too large. But the instantaneous response of LLMs makes it useful to outsource this micro task, even if there are occasional mistakes. Similarly, I would not hire a human research assistant who regularly commits basic logical fallacies while presenting their results with great confidence - I would consider them too unreliable. But after a short adjustment period, I have found it useful to incorporate LLMs that do precisely that into my workflow.

私が実証する応用例の共通点は、LLMは低いトランザクションコストで迅速な回答を出力することができることです。LLMはシンプルなタスクを素早くこなすのに有用であり、確かにエラーは発生する可能性があるものの、人間の研究アシスタントがそのスピードに敵わないレベルで実行することができます。例えば、私が論文を書いているときに、「最適化問題の一次条件を詳しく説明する」と言ったマイクロタスクを人間の研究助手には依頼したりしません。なぜなら、一般的にLLMよりもはるかに時間をかけてしまうからです。代わりにLLMからの迅速な回答があるために、こういったタスクを依頼しやすくなります。例えば時々間違いを起こしながらでも。同じく、「自信満々に発表しながらも、単純な論理的なミス」を犯すような人間の助手を信頼できないと思うが故に雇いたいと思いませんが、LLMを使用する場合、短期間のチューニングを通じて、自分のワークフローに問題なく組み込むことができます。

参照



👇このページのQRコード


    この記事をシェア👉🏻



この記事のカテゴリー
この記事のタグ