引用ジャングルは同名のTumblrページからインポートしています

最新の知見を知るサイト

  • 基本的には自動化ですが、非常に馴染みのない、奇妙なものになるでしょう。おっしゃる通り、これらすべてをコンピュータクラスターで実行すれば、はるかに高速に実行できます。

    世界がこのような状況にある時、私が不安になり始めるシナリオの一つは、何が起こっているのかという理解と制御が徐々に失われていくことです。これが最も起こり得る結末だと思います。理解が徐々に失われていくのです。私たちは徐々にあらゆるところにこうしたものを積み重ね、それを理解する人はますます少なくなっていくでしょう。そして、何が起こっているのかという理解と制御が徐々に失われていくでしょう。私にとって、これがこのすべての事態の展開として最も起こり得る結末のように思えます。

  • 自動化には人間がすでにできることが含まれており、超知能は人間ができないことを意味します。

    しかし、人々が行うことの 1 つは新しいものを発明することであり、それが意味を成すのであれば、私はそれを自動化に組み込むだけです。

  • コーディングはLLMやエージェントにとって最適な最初のステップだと確信しています。コーディングはこれまで、根本的にテキストを中心に行われてきたからです。コンピュータ端末とテキスト、そしてすべてがテキストに基づいています。インターネットで訓練を受けたLLMはテキストが大好きです。彼らは完璧なテキスト処理者であり、膨大なデータも存在します。まさにぴったりの選択肢です。

    コードやテキストを扱うためのインフラも豊富に構築済みです。例えば、Visual Studio Codeやお気に入りのIDEでコードを表示でき、エージェントをそこにプラグインできます。エージェントが変更箇所の差分を表示すると、コードベースとの差分がすべて表示されるコードが既に用意されているので、差分表示でコードベースとの差分をすべて確認できます。まるで、コードのためのインフラを豊富に構築済みと言えるでしょう。

    それと対照的に、全く自動化を享受していないものがいくつかあります。例えば、コーディングではなくスライドの自動化を構築しようとしている人々がいます。ある企業がスライドを作成しているのを見たことがありますが、これははるかに困難です。なぜはるかに難しいかというと、スライドはテキストではないからです。スライドは小さなグラフィックで、空間的に配置され、視覚的な要素があります。スライドには、このようなあらかじめ構築されたインフラストラクチャがありません。例えば、エージェントがスライドに変更を加える場合、どのように差分を表示するのでしょうか?どのように差分を確認するのでしょうか?スライドの差分を表示するものはありません。誰かが構築する必要があります。これらの機能の一部は、テキストプロセッサであるAIにそのままでは対応していませんが、コードは驚くほど対応しています。

  • AGIですよね? 何でもできるもの。物理的な作業は除きますが、あらゆる知識労働をこなせるはずです。この進化は、コンサルタントが行っているちょっとした作業をバケツから取り出し、会計士が行っているちょっとした作業をバケツから取り出し、あらゆる知識労働に応用していく、という単純な流れで起こるだろうと、皆さんは想像していたでしょう。

    しかし、もし私たちが現在のパラダイムでAGIへの道を歩んでいると信じているとしても、その進歩は全く異なります。コンサルタントや会計士の生産性が大幅に向上しているようには見えません。むしろ、プログラマーの仕事がますます削られているようなものです。これらの企業の収益を見てみると、通常のチャット収入(Googleなどに似ています)を除いて、API収入だけを見ると、コーディングが大部分を占めています。つまり、あらゆる知識労働ができるはずのこの「汎用的なもの」が、圧倒的にコーディングだけしか行っていないのです。

  • Waymoが初めて導入された頃は、助手席に人が座っていて、何か重大な問題が発生した場合に監視できるように、必ずそこにいなければなりませんでした。今でも、物事が順調に進んでいるかを確認するために、人が見守っています。最近導入されたRobotaxiにも、まだ人が乗っています。

    仕事の99%を自動化した場合、人間が担う最後の1%が他のすべてのボトルネックとなっているため、非常に貴重な作業となる可能性があります。もしこれが放射線科医の場合だとしたら、Waymoの前に座っている人は最後の1%を提供するために何年も特別な訓練を受けなければならないので、彼らの賃金は飛躍的に上昇するはずです。なぜなら、彼らは広範囲にわたる展開のボトルネックとなっている唯一の存在だからです。放射線科医の賃金が上昇したのも、同じような理由からだと思います。つまり、最後のボトルネックであり、代替不可能な存在である場合です。Waymoのドライバーは他の人と代替可能かもしれません。つまり、99%に達するまでは賃金が上昇し、最後の1%がなくなると一気に下落する、という状況が見られるかもしれません。

  • 仕事の中には、早期に自動化できるような特徴を持つものがあります。例えば、コールセンターの従業員がよく挙げられますが、それは当然のことだと思います。コールセンターの従業員は、現在自動化可能なものと比べて、いくつかの単純化された特性を持っています。彼らの仕事は非常に単純です。一連のタスクで構成されており、すべてのタスクは似ています。人と電話で話すと、10分程度のやり取りになりますが、おそらくもう少し長くなります。私の経験では、はるかに長くなります。何らかのスキームでタスクを完了し、データベースのエントリを変更するなど、何かを何度も繰り返します。つまり、同じことを何度も繰り返す、それがあなたの仕事です。

    タスクの所要時間、つまりタスクの実行にかかる時間を考慮しつつ、コンテキストも考慮する必要があります。企業や他の顧客のサービスにおける様々な要素を扱うのではなく、データベースとあなた自身、そしてあなたがサービスを提供する相手だけに焦点を当てます。より閉じられ、より理解しやすく、純粋にデジタル化されたデータです。ですから、私はこうした要素を重視します。

    しかし、それでもまだ完全な自動化は見ていません。自律性のスライダーのようなものを考えています。人間がすぐに置き換わることはないと考えています。80%の業務をAIに置き換えることになるでしょう。AIは残りの20%を人間に委任し、人間は5つのAIからなるチームを監督し、より定型的なコールセンター業務を担います。

  • 今日、AI で置き換えられる仕事は何でしょうか。最近の良い例は、放射線科医はもはや仕事ではなくなるだろうというジェフ・ヒントンの予測でしたが、これは多くの点で非常に間違っていたことが判明しました。コンピューター ビジョンは、画像内で認識しなければならないさまざまなものをすべて認識するのが非常に得意ですが、放射線科医は健在で、成長を続けています。それは、多くの表面があり、患者に対応し、そのコンテキストでこれらすべてのことを行う、厄介で複雑な仕事です。

  • AIや初期のAGIについて人々が語る時、そしてOpenAIが設立された当時私たちが話していたように、AGIとは経済的に価値のあるあらゆるタスクを人間のパフォーマンスかそれ以上のレベルで実行できるシステムだと。それが当時の定義でした。私は当時、それで満足していました。それ以来ずっとその定義に固執してきましたが、その後、人々は様々な定義を作り出してきました。しかし、私はその定義を気に入っています。

    人々がいつもする最初の譲歩は、デジタル知識労働についてのみ話しているので、物理的な作業をすべて除外することです。これは、人間ができることすべて、つまり物を持ち上げたりといった作業だった元の定義と比較すると、かなり大きな譲歩です。AIは当然そんなことはできませんが、私たちはそれを受け入れます。「ああ、知識労働だけ」と言うことで、経済のどれくらいの割合を奪っているのでしょうか?具体的な数字は分かりませんが、推測するに10%から20%くらいは知識労働だけで、誰かが在宅勤務で仕事をこなせるようなものだと思います。それでも非常に大きな市場です。経済の規模はどれくらいで、10%や20%とはどの程度でしょうか?米国だけでも、市場シェアや労働規模は数兆ドル規模です。つまり、依然として非常に大きな市場なのです。

  • 10億より小さい方がいいと思ってるんですか? まあ、いいでしょう? よく分かりません。面白いことをするには、少なくとも10億個のノブが必要になるはずです。もっと小さい方がいいと思ってるんですか?

    10億パラメータの認知コアについて話すことで既に逆張りになっている気がしますが、あなたは私より上回っていますね。もう少し規模を小さくできるかもしれませんね。実際的に言えば、モデルにはある程度の知識が必要だと思います。全てを調べさせるのは避けたいですね。そうすると頭の中で考えられなくなってしまうからです。常にあまりにも多くのことを調べていることになります。知識を得るためにはある程度の基礎的なカリキュラムは必要ですが、難解な知識は必要ありません。

  • 問題は、トレーニングデータがインターネットだということです。インターネットは本当にひどいものです。インターネットがひどいからこそ、莫大な利益が得られる可能性があります。インターネットと言っても、私たちがインターネットについて考えるとき、ウォールストリートジャーナルのようなものを思い浮かべます。これは違います。フロンティアラボで事前トレーニングデータセットを見ても、ランダムに選んだインターネット文書を見ても、全くのゴミです。これがどのように機能するのか全く分かりません。株価表示記号やシンボルなど、インターネットのあらゆる場所から集めた大量のゴミです。ウォールストリートジャーナルの記事のようなものではなく、それは極めて稀です。インターネットがあまりにもひどいので、それを全て圧縮するために非常に大規模なモデルを構築する必要があります。その圧縮のほとんどは、認知作業ではなく記憶作業です。

    しかし、私たちが本当に求めているのは、記憶を取り除いた認知機能の部分です。つまり、事前学習セットを認知機能だけに絞り込むために、インテリジェントなモデルが必要だということです。そうすれば、はるかに優れたデータセットを使って学習できるので、はるかに小さなモデルで済むと思います。しかし、おそらく直接学習されているわけではなく、より優れたモデルから抽出されたものなのでしょう。