Geminiはあなたと一緒にビデオを視聴し、そのビデオをインタラクティブな学習アプリに変換します。
それも、何も指示する必要はありません。動画のリンクをコピーして貼り付けるだけで、あとは待つだけです。
Gemini 2.5 Pro は、 VideoMME ベンチマークで84.8% という高得点を獲得しました。これは基本的に、コーヒーを 2 杯飲んだ後のほとんどの人よりもビデオ コンテンツを理解できることを意味します。
引用ジャングルは同名のTumblrページからインポートしています
最新の知見を知るサイト
-
-
非言語音声生成:標準的な音声合成を超えて、DIA は(笑)などのタグをシームレスに解釈し、自然な笑い声として再現することができます。これは、手動での置き換え (例、「haha」) が必要なElevenLabsやSesame CSM-1Bなどのモデルにはない機能です。
-
DIA 1.6B は、 Nari Labsが開発した最先端の16 億パラメータのテキスト読み上げ (TTS) モデルであり、テキスト トランスクリプトから直接、非常にリアルで表現力豊かな対話を生成するように設計されています。
堅苦しい、または単調な音声を生成する従来の TTS システムとは異なり、DIA は、動的な感情、トーンの変化、さらには笑い、咳、咳払いなどの非言語的な発声を含む自然な会話のニュアンスを捉えることに優れています。
-
PowerPoint MCPを使って、グラフや表、その他のビジュアル要素と合わせて、基本的なプレゼンテーションを作成しましょう。AIに作成したいプレゼンテーションの内容を伝えるだけで、あとはAIがプレゼンテーション全体を作成し、保存してくれるので、あとはリラックスして待つだけです。
AIはあなたのGmailアカウントに直接アクセスできるようになりました。クラウドAIに指示するだけで、メールを撮影したり、過去のメールを読んだり、要約したり、その他さまざまな操作が可能になります。
Excelも自動化できます。実行したい計算を入力するだけで、Excel MCPが処理してくれます。
Googleカレンダーの予定管理、削除、概要作成、準備すべきことなど、AIがあなたの代わりにやってくれるので、指示するだけで操作が完了です。
AI搭載のFile System MCPを使えば、ローカルシステムのクリーンアップ、ファイルの管理、ファイル情報の確認、新規ファイルの作成などが可能になります。必要な操作を指示し、わずかなアクセス権限を与えるだけで、システムがどのようにクリーンアップされるか、魔法のように見ることができます。
Amazonで買い物をしたり、オンラインでサービスを予約したり、ページをクリックしたり、Googleフォームに入力したり、これらすべてをAIが行えるようになったらどう思いますか? そうです、その通りです。MicrosoftのPlaywrightはブラウザの自動化を支援します。これで、必要な操作をAIに任せるだけで、AIがインターネットをナビゲートし、必要なページにアクセスし、フォームに入力し、ボタンをクリックするなど、AIが自動で行ってくれるようになります。
-
Google は今年最大の論文の 1 つである、アルゴリズムによる発見のための最も進化したコーディング AI エージェントである AlphaEvolve を発表しました。
Google がプロジェクトに「アルファ版」を付けたら、覚悟してください。これは地殻変動を起こすでしょう。
まずGo、次にFold、そしてAlphaEvolve
AlphaEvolveは、複雑なアルゴリズムを発見・最適化するために開発された、GeminiベースのAIコーディングエージェントです。天才数学者、熟練のプログラマー、そして精力的なテスターを融合させた、いわばステロイドを投与されたような存在です。
・数学、データセンターの効率、AI カーネルの最適化、さらにはチップ設計の問題に対応する複雑なアルゴリズムを設計および最適化します。
・LLM (Gemini Pro + Flash)を使用してプログラム コードを生成し、自動評価ツールで各候補を検証して採点します。
・進化的な検索プロセスを採用しています。最も適した者だけが生き残り、進化するコードトーナメントを考えてみてください。
例: AlphaEvolve は、(ディープラーニングで使用される) 巨大な行列演算を小さな部分に分割する方法を考案し、トレーニング プロセス全体を 23% 高速化し、Gemini のような大規模なモデルのトレーニング時間を 1% 削減しました。
それは、眠らずにコードを書き、デバッグし、テストし、スコアを付け、反復するたびに改善し続ける研究アシスタントがいるようなものです。
-
昨晩、人間が56年間も解けなかった数学の問題をAIが解くのを見ました。思わず口があんぐり開きました。
-
NVIDIAは、「2Dの漫画風のアバターは多くのアプリケーションで同様に効果的」であり、多くの場合、不気味の谷を完全に回避できると述べています。
-
説得力のあるデジタルヒューマンへの道は、「不気味の谷」と呼ばれる悪名高い心理現象を直撃する。
日本のロボット研究者、森政弘氏は1970年にこの現象を初めて発見し、人間が合成顔に対して抱く安心感は、人間の顔にほぼ近いが、完全には近づかない臨界点に達するまで増大していくが、その臨界点を超えると、嫌悪感の「谷」へと落ち込むことを説明した。
人間の脳は、顔の動き、プロポーション、質感における微妙な不一致を検知することに長けている。これらの要素が完全に一致しないと、潜在意識が警鐘を鳴らし、軽い不安からあからさまな嫌悪感まで、様々な感情を生み出す。
私たちは皆、フォトリアリズムを目指したものの、不気味の谷に完全に陥ってしまったアニメ映画やビデオゲームのキャラクターを見て、この不快感を経験したことがあります。
NVIDIA の開発者ブログはこの課題を率直に認め、「リアルタイム レンダリングと自然なアニメーションへの需要」は「視覚的な忠実度によって設定された期待」と慎重にバランスを取る必要があると述べています。
-
LLMを使用してデータを圧縮するLMCompressと呼ばれる新しい圧縮アルゴリズムが提案されています。
このアルゴリズムは非常に効果的で、画像の場合はJPEG-XL 、音声の場合はFLAC、ビデオの場合はH.264のロスレス圧縮率が 2 倍になり、テキストの場合はbz2の圧縮率が4 倍になります。
-
インターネットでは毎日、 4億300万テラバイトもの膨大なデータが生成されています。
この割合で考えると、世界のデータプールは2025 年までに163 ゼタバイト(10 億テラバイト) にまで増加すると予想されます。