- 資料
MyGPT用ナレッジサンプル
はじめに
今回は、MyGPTについている「ナレッジ」機能の有効性を試してみます。
「ナレッジ(Knowledge)」とは、日本語でいう「知識」のことです。
MyGPTでは、ユーザーがGPTに対して「ナレッジ=知識」を与えることで、動作をカスタマイズできるようになっています。
ナレッジのアップロード
では、さっそく試してみましょう。
まずは、新しいMyGPTを作成します。
今回は「ナレッジ」をアップロードする必要があるので、直接設定画面から調整します。
上のほうにある「Configure」を選択して、設定画面へ切り替えましょう。
一方、お試し用の「ナレッジ」として、予め次のような内容のテキストファイルを用意しておきました。
はじめに断っておきますが、この内容は嘘です。
日本の個人情報保護法では、生存する個人の情報のみが保護の対象です。
日本の個人情報保護法では、生存する個人と、死後五十年以内の個人の情報が保護されます。
ファイルが用意できたら、「Upload files」というボタンをクリックします。
するとファイルを選択する画面が開きますので、ここで用意したファイルを選択肢します。
ファイルを選択すると自動でアップロードが始まります。
アップロード中は進捗を示す輪っかが表示され、完了するとファイルのアイコンに変わります。
今回はひとつだけですが、必要に応じて複数のファイルをアップロードすることができます。
また、ナレッジファイルの中身は、機械学習などで扱う特殊な形式である必要はありません。
先ほど示したような、自然な表現で大丈夫です。
なお、設定画面の下の方には、このGPTでのやりとりをChatGPTの学習に使用するかというチェックボックスがあります。
今回は明らかに間違った情報なので、このチェックは外しておきましょう。
ナレッジの確認
では、さっそくナレッジを使ってみましょう。
まずは、ナレッジが認識されているか確認してみます。
? ナレッジの内容をそのまま表示してください。
さて結果は……?
お、ちゃんとナレッジを検索してくれているようですね。
素晴らしいです。
ナレッジに書いた嘘の情報『日本の個人情報保護法では、生存する個人と、死後五十年以内の個人の情報が保護されます。』が表示されましたね。
ただ、これだけではナレッジの内容を書き出しただけです。
ちゃんと意味を理解しているのでしょうか?
確認してみましょう。
? その内容は正しいですか?
さて結果は……?
はい、バッチリ認識されています。
ちゃんと嘘である箇所『死後五十年以内の個人の情報も保護される』がおかしいことを指摘しています。
ちなみに、次の試作用にこんなことも聞いてみましょう。
? では、日本の法律で死後五十年保護される権利は何ですか?
素晴らしい。
著作権についても、ちゃんと学習していますね。
ただ、若干ハルシネーション(誤った情報)が混ざっていて、日本において保護期間が七十年になったのは、2018年12月30日です。
こういうところは、やはり気を付けなければいけませんね。
ナレッジで情報を書き換える
では、今度はもう一歩踏み込んで、ナレッジでGPTの知識を書き換えてみましょう。
今回用意したテキストはこちらです。
例によって、この情報は嘘ですのでご注意ください。
日本の個人情報保護法では、生存する個人と、死後五十年以内の個人の情報が保護されるようになりました。
先ほどのナレッジとは異なり、『変化があった』ことを示す内容にしました。
これにより、GPTの学習結果を(良くも悪くも)補完してやろうという魂胆です。
では、先ほどと同じ要領で新しいMyGPTを作成し、Upload Filesでテキストファイルをアップロードします。
準備は整いました。
まずは、ナレッジが認識されているか、先ほどと同じ質問で確認しましょう。
はい、間違いありません。
『保護されるようになりました』という文章がアップロードされています。
ではさっそく、個人情報保護法について聞いてみましょう。
? 日本の個人情報保護法で保護される個人情報について教えてください。
ちょっと質問の仕方が悪かったですね。
はじめに、個人情報の定義について説明してくれました。
ただ、最後の段落で、ナレッジを参照して『死後五十年以内の個人情報も保護対象』ということを回答しています。
しかし、どうにも取って付けたような回答で不安になります。
念のため、確認を取ってみましょう。
? つまり、死亡した個人の情報も一定期間保護されるということですか?
言質取りましたッ!
MyGPTは、明確に『はい、その通りです。』と回答してきました。
事実から見るとハルシネーションですが、次の一文で『ご提供いただいたファイルによると~~』と説明していますので、ナレッジの情報によって判断が変化していることは明らかです。
では、ちょっと角度を変えて、先ほどのケースと同じ質問を投げかけてみましょう。
? 日本の法律で死後五十年保護される権利は何ですか?
全体的に著作権についての回答になっていますが、一番最後に『著作権とは別に、故人の名誉やプライバシーに関わる権利が~~』とあります。
ここは明らかにナレッジの影響を受けています。
まとめ
ここまで見てきたように、「ナレッジ」に知識に関する文書をアップロードしてあげることで、GPTの回答をカスタマイズすることができます。
ふたつめのように、「ナレッジ」にアップロードした知識で上書きするのが本来の使い方だと思いますが、ひとつめのように、「ナレッジ」の妥当性をチェックさせることもできます。
使い方を工夫することで、様々な可能性が生まれそうですね。
あるいは、本来の使い方をすれば、「一般とは異なる自社ルール」などを覚えさせることもできます。
今回は非常にシンプルな文章を例にしましたが、多少長い文章でもある程度の精度で加味して回答してくれます。
ちなみに余談ですが、当初は個人情報保護法の条文(e-Govで検索した文章)をコピーし、個人情報の定義だけ書き換えてナレッジに放り込みました。
その結果、『これ記事にしたらさすがに怒られるんじゃ……』とおののくほど、自然に嘘(死後五十年)を回答するようになってしまいました。
インターネット上に嘘情報がばら撒かれるのは危ないと思いますので、興味のある方はご自身の環境のみで、「自己責任」のもと、お試しください。
おわりに
以上が、MyGPTの「ナレッジ」に関する資料と説明になります。
2023/12/12現在だと、ナレッジの長さやファイル数を増やした際に精度が落ちやすいですが、手軽に「学習」をさせられる手段としては他を圧倒していると思います。
GPT-4の有料契約があれば、MyGPTは無料で試すことができるので、ぜひ試してみてください。