新しいClaude コンピュータ使用モデルは、エージェントが何を意味するのかを示唆しています。ある程度の計画が可能で、画面を見て (スクリーンショットを撮る)、画面と対話して (仮想マウスを動かして入力する) コンピュータを使用する機能があります。
Amazon で商品を購入するために AI を使用しようとしましたが、私の好みに合わないかなり単純で一般的な商品調査を行ったため、プロセスにイライラしました。株の調査をさせたところ、財務データのスプレッドシートを組み立てて推奨事項を提示する作業はうまくいきましたが、それらは PE 比率のようなかなり表面的な指標でした。技術的には支援することができ、多くの人間のインターンよりも優れていましたが、私がこの種のタスクを委任できるほど洞察力がありませんでした。
Anthropic から、共有する価値のある 4 つのヒントが送られてきました。
1. モデルが実行する必要がある手順について明確な指示がある、明確に指定された単純なタスクに使用を限定するようにしてください。
2. モデルは、アクションの結果を明示的に確認せずに想定することがあります。これを防ぐには、「各ステップの後にスクリーンショットを撮り、正しい結果が得られたかどうかを慎重に評価します。自分の考えを明示的に示してください。「ステップ X を評価しました…」。正しくない場合は、もう一度試してください。ステップが正しく実行されたことを確認した場合にのみ、次のステップに進みます」というプロンプトを出すことができます。
3. 一部の UI 要素 (ドロップダウンなど) は、モデルがマウスの動きで操作するのが難しい場合があります。このような場合は、モデルにキーボード ショートカットを使用するように指示してみてください。
4. 繰り返し可能なタスクや UI インタラクションの場合は、プロンプト プレフィックスの一部として、モデルが成功したことを示すサンプルのスクリーンショットやツール呼び出しを含めます。
You may also enjoy…
コメントを残す