AnthropicのClaudeはAIアプリを迅速に改善するためのプロンプトプレイグラウンドを追加

昨年、プロンプト工学はAI業界で注目される仕事となりましたが、Anthropicは少なくとも部分的にそれを自動化するツールの開発を進めているようです。

Anthropicは、自社ブログ投稿によると、開発者がスタートアップの言語モデル、Claudeを使用してより便利なアプリケーションを作成するための新機能を火曜日にいくつかリリースしました。開発者は、プロンプト工学の技術を使用して、Claudeの回答を特化したタスクに向けて改善するために、Claude 3.5 Sonnetを使用してプロンプトを生成、テスト、評価することができます。

言語モデルは特定のタスクを実行するように依頼された際にはかなり寛容ですが、時にはプロンプトの言葉を少し変更するだけで結果が大幅に向上することがあります。通常、あなた自身でその言葉を見つけ出すか、プロンプトエンジニアを雇う必要がありますが、この新機能は改善点を見つけやすくするための素早いフィードバックを提供します。

これらの機能はAnthropic Console内の新しい評価タブに格納されています。Consoleは、Claudeを活用した製品を構築したい企業を引き付けるために、開発者向けにスタートアップの試験キッチンとして作成されました。5月に発表された機能の1つは、Anthropicの組み込みプロンプトジェネレータです。これは、タスクの短い説明を取り、Anthropic独自のプロンプト工学技術を利用して、はるかに長く、充実したプロンプトを構築します。Anthropicのツールはプロンプトエンジニアを完全に置き換えるわけではありませんが、会社は新規ユーザーに助けを提供し、経験豊富なプロンプトエンジニアの時間を節約すると述べています。

Evaluate内では、開発者はAIアプリケーションのプロンプトがさまざまなシナリオでどれほど効果的かをテストできます。開発者は実世界の例をテストスイートにアップロードしたり、ClaudeにさまざまなAI生成テストケースを生成するよう求めたりすることができます。開発者はその後、さまざまなプロンプトが並べられた状態で効果を比較し、サンプル回答を5段階評価できます。

生成されたデータにフィードされて良いと悪い応答を見つけ出すプロンプト。
画像提供: Anthropic

Anthropicのブログ投稿からの例では、開発者が複数のテストケース全体で短すぎる回答を提供していると特定しました。開発者は、プロンプトの1行を調整して回答を長くすることができ、すべてのテストケースに同時に適用することができました。これは、特にプロンプト工学の経験が少ないまたは全くない開発者にとって、多くの時間と労力を節約することができるでしょう。

AnthropicのCEO兼共同創設者であるダリオ・アモディは、今年早い時期にGoogle Cloud Nextでのインタビューで、プロンプト工学は生成的AIの企業の普及にとって最も重要な要素の1つだと述べました。「簡単なように聞こえますが、プロンプトエンジニアとの30分の作業で、以前は機能しなかったアプリケーションが動くようになることがよくあります」とアモディは述べています。