人間は模倣と明示的なフィードバックの組み合わせから学習します。
・学校では、教師は黒板に算数の問題を描き、生徒にそれに沿って解くように促します(模倣)。その後、教師は生徒に自分で問題を解くように指示します。教師は生徒の答えを採点することでフィードバックを与えます(強化)。
・新しい仕事を始める際、初期の研修では、より経験豊富な従業員の行動を観察する(模倣)といった形態が考えられます。しかし、従業員が経験を積むにつれて、学習は業績評価などの明示的なフィードバック(強化)へと移行していきます。
通常、強化の前に模倣を行うのが理にかなっていることに注意してください。模倣は、あるトピックを全く知らない人に知識を伝える効率的な方法ですが、習得するには強化が必要となることがよくあります。
大規模言語モデルでも同様です。自然言語の複雑さを考えると、強化学習のみで言語モデルを学習することは現実的ではありません。そのため、LLMはまず模倣を通して人間の言語のニュアンスを学習します。
しかし、事前学習は、より長く複雑なタスクでは力不足になります。さらなる進歩には、強化学習への移行、つまりモデルに問題を試させ、成功したかどうかに基づいてフィードバックを与えることが必要です。
引用ジャングルは同名のTumblrページからインポートしています
最新の知見を知るサイト
-
-
強化学習のみで自動運転車を訓練したいとしましょう。車間距離の確保、交差点での右左折、二重黄線をいつ越えても良いかといった、運転のあらゆる原則を明確な数式に変換する必要があります。これは非常に困難です。人間の運転例を大量に集め、モデルに「このように運転しなさい」と効果的に指示する方が簡単です。それが模倣学習です。
しかし、強化学習は自動運転システムの訓練においても重要な役割を果たします。2022年の論文で、Waymoの研究者は、模倣学習のみで訓練されたモデルは「デモデータによく表れている状況」ではうまく機能する傾向があると記しています。しかし、「データではほとんど発生しない、より異常な、あるいは危険な状況」では、模倣学習で訓練されたモデルが「予測できない反応」を示す可能性があり、例えば他の車両に衝突する可能性があります。
Waymo は、模倣学習と強化学習を組み合わせることで、どちらかの技術を単独で使用した場合よりも優れた自動運転パフォーマンスが得られることを発見しました。
-
私たちが何年もかけて開発してきたようなアプリケーションは、数日で構築できます。彼はエンジニアリングの生産性が60~75%向上するという誇大広告の記事をいくつも読んでいます。どうやら、私たちの業界に競合企業が参入し、私たちのアプリとほぼ同じことを、より高度な機能で実現したようです。これには様々な理由が考えられますが、結局のところ、彼らはAIを活用して1ヶ月で私たちのアプリを開発したのです。それ以来、「効率を向上」させ、できるだけ早くリリースするために、あらゆる場所でAIをフル活用するようにというプレッシャーが絶え間なくかかっています。
-
Pinterestで流行っているミームが、今の状況をよく表していると思います。
「絵を描いたり物語を書いたりするために、ロボットに皿洗いや洗濯をさせたかった。ところが、実際には絵を描いたり物語を書いたりするロボットが与えられ、私たちは皿洗いや洗濯をすることができるようになった」
-
以前、私はAdobeで働いていました。チームやマネージャーにはGenAIが大嫌いで、GenAIプロジェクトには関わりたくないと常に伝えていたにもかかわらず、AIへの注目が高まり始めた頃、私のチームは解散され、私はチームメイトから引き離され、GenAIに特化したチームに配属されました。自分の価値観に反するものを作ること以外に、組織化したり、妨害したり、抵抗したりする方法がないと判断し、辞めました。解雇されるべきだったのではないかと、今でもよく考えます。これは、AdobeがFireflyに寄稿者のオプトインなしでStock寄稿のトレーニングを行っていたことが判明する前、そして利用規約の失態が起こる前のことなので、少なくともその場にいなくてよかったと思っています。
-
AIを本格的に活用したいと考えているほとんどの人は、AnthropicのClaude 、GoogleのGemini 、OpenAIのChatGPTの3つのシステムのいずれかを選ぶべきです。すべてのオプションを利用することで、高度で高速なモデル、音声モード、画像やドキュメントの表示機能、コード実行機能、優れたモバイルアプリ、画像や動画の作成機能(ただしClaudeにはこの機能がありません)、ディープリサーチを行う機能にアクセスできます。これらの機能の一部は無料ですが、必要な機能のフルセットにアクセスするには、通常、月額20ドルを支払う必要があります。
-
このダイナミクスは、連邦準備制度理事会(FRB)を未知の領域へと導いている。一方では、データセンター、半導体、インフラなどにおけるAI投資の急増とその成長を牽引する力は、今後何年にもわたってGDP成長を牽引するだろう。他方では、AI主導の生産性向上と利益率拡大は、たとえ労働市場が弱含んだとしても、企業収益を堅調に保ち、株式市場を高値に押し上げる可能性がある。
これはFRBがこれまでほとんど対処したことのない乖離だ。S&P500指数の急上昇と堅調なGDPの主要数値が、失業率の上昇と消費者心理の悪化と共存している。労働市場が弱まる一方で、特にサービス業や住宅市場においてインフレが低迷し続ける場合、FRBは二つの誤った選択肢のどちらかを選ばざるを得なくなるかもしれない。一つは、更なる金融引き締めを行って労働市場の苦境を悪化させるリスクを負うか、もう一つは、SPXが上昇し信用スプレッドが史上最低水準にある中で金利を据え置き、インフレ期待のコントロールを失うことを恐れるかだ。
これをさらに複雑にしているのは、FRBという組織的DNAだ。FRBは主に学者で構成されており、非常に有能ではあるものの、歴史を分析するように訓練されており、前例のない現実に立ち向かうようには訓練されていない。彼らは、AIがいつ自分の仕事を奪うのかと不安に思う職員と同じように途方に暮れている。AIは、いかなる学術モデルも吸収できないほどの速さで、新たな経済史を刻みつつあるのだ。
-
Amazonのアンディ・ジャシー氏が従業員に対し、生成型AIは「社内の従業員総数を減らす可能性がある」と警告した一方、JPモルガンの消費者担当責任者は、AIによって10%の人員削減が可能になる可能性があると公言している。
-
「テクノロジーの歴史において、このような状況はかつて見たことがありません。企業の売上高が年間20%以上成長している一方で、営業費用と人員はわずか2%しか伸びていません。これはかつてない状況です」
-
マーク・アンドリーセンのような楽観主義者は、織機からインターネットに至るまで、あらゆる主要な技術革新は大量失業への懸念を引き起こし、全く新しい産業や職種を生み出すだけだと主張しています。この見方では、AIも例外ではありません。AIは労働者を単調な作業から解放し、より創造的で充実した仕事を可能にする強力な生産性向上ツールとなるでしょう。
しかし、アントロピックのCEOダリオ・アモデイ氏や元Google X幹部のモー・ガウダット氏のような人々は、はるかに破壊的な未来を予見しています。彼らは、遠い将来ではなく、差し迫った将来に、相当な雇用喪失が起こると警告しています。AIが過去のイノベーションと異なるのは、そのスピードだけでなく、認知能力の範囲です。これは、ホワイトカラーの意思決定と肉体労働の両方を同時に脅かす初めてのブレークスルーです。筋肉を置き換えるだけでなく、思考をも置き換えるのです。
弁護士やアナリストから工場労働者や運転手まで、労働力のどのセグメントも完全に影響を受けないわけではありません。AIを過去のイノベーションと比較すると、重要な違いが見落とされます。AIは単に私たちが用いるツールではなく、学習し、適応し、ますます私たちなしで機能するシステムなのです。これは、どの社会も真に直面したことのない変化です。最も重要なのは、AIが工場のフロアに静止しているわけではないということです。私たちは、ヒューマノイドが私たちと並んで道を歩く生活を送るようになるでしょう。ニューヨークでは、Waymoがついに登場すれば、これが現実のものとなり始めるでしょう。