Monthly Archives: September 2024
-
- September 05, 2024 80
前回の記事では、Mistral AI社が開発したLLMを小規模なマシンでChatbotにすることを紹介しました。
今回はこのChatbotにGPT4o作成の問題を入力し、出力された回答をGPT4oで採点してみました。
この記事を書く前に同じChatbotで推論の問題をいろいろ試していました(それに関しては別の記事で紹介します)。
推論以外にLLMに必要な機能をGPT4oに聞いてみました。
私の質問:LLMに必要な能力は推論の他に何がありますか
LLM(大規模言語モデル)に必要な能力は推論以外にもさまざまあります。以下に代表的な能力を挙げます。
### 1. **理解力(Comprehension)**
- モデルが自然言語を理解し、文脈や意図を正確に把握する能力です。例えば、曖昧な言葉や異なる意味を持つ言葉を正しく解釈することが求められます。この能力は、モデルが文脈に基づいて適切な返答を生成するために必要です。### 2. **知識の保持(Knowledge Retention)**
- 広範なドメイン知識を持ち、それを元に正確な回答を提供できる能力です。LLMは事前に大量のテキストを学習するため、一般常識や専門知識を保持しておくことが求められます。事実に基づいた回答や、特定の分野に特化した知識を提供する際に重要です。### 3. **言語生成力(Text Generation)**
- 与えられた指示に基づいて、自然で流暢なテキストを生成する能力です。文法や文脈を正しく理解し、適切な語彙や文体を使うことが必要です。例えば、ニュース記事の生成や、プログラムコードの自動生成など多様なタスクに活かされます。### 4. **対話管理(Conversation Management)**
- 複数ターンの会話を正確に管理し、過去の会話履歴を適切に参照しながら、整合性のある返答を行う能力です。これにより、対話型システムとして一貫したやり取りが可能になります。### 5. **創造力(Creativity)**
- 物語の生成や新しいアイデアの提案など、創造的なタスクにおいて重要な能力です。特に文章や詩、デザインのアイデア生成など、想像力を活かしたタスクに強いモデルが求められる場合があります。### 6. **常識推論(Commonsense
-
- September 05, 2024 72
GeForce RTX 4080 Super *2のマシンにMistran AI社のMistral-NeMoをインストールしてChatbotを動作させ、その能力を試しています。
今回は推論能力を試してみましょう。前回と同様、GPT4oで問題を作成し、採点もGPT4oで行いました。
難易度の高い推論問題をいくつか作成しました。これらの問題は、論理的思考や複雑な条件を必要とし、より高度な推論力を試すことができます。
### 1. **条件付き自己矛盾問題**
- **問題**: AさんとBさんは、正直者か嘘つきのどちらかです。Aさんは「Bさんは嘘をついている」と言い、Bさんは「Aさんは嘘をついている」と言いました。この場合、AさんとBさんのどちらが正直者で、どちらが嘘つきでしょうか?また、その理由を説明してください。### 2. **多数派と少数派の推論問題**
- **問題**: 10人の友達がパーティーにいます。そのうち7人はいつも真実を話し、3人は常に嘘をつきます。Aさん、Bさん、Cさんの3人が次のように言いました。Aさんは「Bさんと私はどちらも真実を話している」と言い、Bさんは「Aさんは嘘をついている」と言い、Cさんは「Bさんは嘘をついている」と言いました。Aさん、Bさん、Cさんのうち、誰が真実を話していて、誰が嘘をついているかを推論してください。### 3. **条件付き時系列推論問題**
- **問題**: ジョンは毎週月曜日と水曜日にジムに行きます。メアリーはジョンがジムに行かない日に買い物をします。サムはメアリーが買い物をしない日に映画館に行きます。次の火曜日、ジョン、メアリー、サムのうち、誰がどこに行くかを推論してください。### 4. **相対的な時間の推論問題**
- **問題**: アリス、ボブ、キャロルの3人がいます。アリスはボブよりも30分早く家に帰り、キャロルはアリスよりも15分遅く家に帰ります。ボブは18時30分に家に帰りました。アリスとキャロルはそれぞれ何時に家に帰ったでしょうか?### 5. **論理パズル問題**
- **問題**: 5人の友達が公園で遊んでいます。AさんはBさんよりも早く公園を出ましたが、Cさんよりは遅く出ました。DさんはCさんの後に出ましたが、Bさんの前に出ました。Eさんは全員の中で最も遅く公園を出ました。この5人が公園を出た順番を推論してください。 -
- September 04, 2024 129
MIstral-NeMoはMIstral AI社が開発した12Bの大規模言語モデル(パラメーターの数が120億個)です。多言語で訓練されていますので、日本語でのやりとりも問題ありません。比較的入手が容易でそこまで高価でないGeForce RTX 4080 Superが2枚あれば、ダウンロードしてオフラインでChatを楽しむことができます。やりかたはここを見れば簡単です。
今回はこのマシンで、試しました。以下はChatのやりとりです。
Prompt: 日本の首都はどこですか?
日本の首都は東京です。東京は日本の政治、経済、文化の中心であり、世界でも最も人口の多い都市の一つです。東京は1868年に明治天皇が東京に遷都して以来、日本の首都として機能しています。
=====================
Prompt: 次の文を文法的に正しい日本語に修正してください。「明日、学校行く。」
「明日、学校に行きます。」と修正してください。文法的に正しい日本語としては、「に」を付けて動詞の連用形「行きます」を使うのが適切です。また、敬語を使う場合は「行きます」を「参ります」に変えて「明日、学校に参ります。」と表現することもできます。
=====================
Prompt: 「全てのAはBである。CはAである。CはBであるか?」この命題の正しさを説明してください。
この命題は、シンプル・プレミセとメジャープレミセから構成される三段論法の例です。正しい三段論法の形は次のようになります:1. 全てのAはBである(メジャープレミセ)
2. CはAである(シンプル・プレミセ)
3. したがって、CはBである(コノセンス)この命題では、メジャープレミセは「全てのAはBである」と表現されています。これは、全てのAに関してBが当てはまるという一般的な主張を表しています。シンプル・プレミセは「CはAである」と表現されています。これは、CがAの一例であることを表しています。コノセンスは「CはBであるか?」と表現されていますが、これは三段論法の結論を問い合わせているように見えます。
この命題の正しさを判断するためには、メジャープレミセとシンプル・プレミセが正しいかどうかを確認する必要があります。もしメジャープレミセとシンプル・プレミセが正しい場合、コノセンスも正しいことになります。例えば、「全ての人々は死す(メジャープレミセ)」「ソクラテスは人々である(シンプル・プレミセ)」から「ソクラテスは死す(コノセンス)」という三段論法が成り立つように、この命題も同様に正しいことになります。