次の仕事はRAGらしいので、AzureやらChatGPTを調査中。
RAGなのでファインチューニングは別にいらないけど、SNSで急に千夜様みたいな話し方のChatを作ってみないかと言われて…良い調査になりそうと思って、OpenAIに5ドルを払って、ChatGPT調査を兼ねて、少し本気で作ってみた
最大の問題は、実はごちうさ原作ではかなりアドリブ的な台詞が多く、Trainデータがあまり特徴過ぎる台詞ばかりだと、逆に汎用性が無くなる。
台詞20個だと比較的に大人しいが、100個程度増やすと、変な回答が多いからか、逆にTrain Lossがおかしくなって、すぐ壊れた。
そう思って、アラームやら以前のコラボなど、千夜様の汎用的な台詞もたくさん集めて、再度Trainしました。
千夜様モデル
— 白鳥かりん (@atelierkarin.bsky.social) 2024-08-26T14:34:18.286Z
原作みたいな唐突な面白いセリフは結局無理だが、違和感なく千夜様の喋り方を再現した。脳内に佐藤聡美さんの声が再生してるような感覚。結構いい感じではないか
ちなみに正式では過学習をチェックするために検証データが要るが、ここでは汎用性台詞が限られているので省略しました。将来訓練データもっと増やせば、もしかして作れるかもしれないけど、現状はとりあえず質問と回答の訓練データのみ(とはいえ、質問の聞き方を変えれば同じ返答が返ってくるかどうかの検証データは可能)。
いくつの例
ちょっと笑った
— 白鳥かりん (@atelierkarin.bsky.social) 2024-08-26T14:39:57.302Z
普通の解説もOKね
— 白鳥かりん (@atelierkarin.bsky.social) 2024-08-26T14:52:29.570Z
更に改良するかどうかはわかりませんが、趣味なので興味がある方は連絡しても構いません(しかしこれはあくまで研究目的であり、商業利用はNG)。
課題はもちろんある。
喋り方はそっくりだけど、ごちうさ関連を認知しない。結局訓練データでは喋り方などの調教がメインなので、ごちうさの知識はあまりないからシャロちゃんやココアちゃんの話を聞くと、変な回答を返ってくる。
解決方法は、訓練データでそういうの増やすよりも、たぶんRAGみたいに、ごちうさデータベースを作って、AIサービスが参照できるようにするがベストではないかと。
OpenAIではAssistant APIがそれができるみたいだが、残念ながらFineTunedしたGPT-4oモデルは対応しないっぽい…
ならGPT3.5Turboでもう一回作ってみるか…
ちなみに仕事では硬い言葉の喋り方が要望なので、AI Searchがメインである…