ローカルLLMの一般的な欠点は速度で、クロードや他のAIに比べて応答がかなり遅いことです。探索段階であれば問題ないかもしれませんが、動作が遅いことは覚悟しておいてください。
もう一つの問題は、コンテキストウィンドウのサイズです。ほとんどのローカルモデルは、コンテキストウィンドウが比較的小さいのが特徴です。最新のClaude Sonnet/Opusモデルでは100万トークンのコンテキストウィンドウが採用されていますが、ほとんどのローカルモデルは6万4千~12万8千トークン程度です。そのため、会話が長かったり、データセットが大きかったりすると、処理が難しくなり、より頻繁に「圧縮」する必要が生じる可能性があります。
ただし、Claudeで限界に達してしまう場合は、ローカルモデルの限界を回避するのもおそらく難しいでしょう。