松尾研究所テックブログのフィード
https://zenn.dev/p/mkj
株式会社松尾研究所のテックブログです。
フィード

AIエージェントの「できる」と「任せられる」の間にある壁
2
松尾研究所テックブログのフィード
2026年に入り、AIエージェントの性能競争はかつてない熱を帯びています。ベンチマークの数字だけを見れば『万能』に近づいているようですが、いざ業務フローに組み込むと、最後まで仕事をやり遂げてくれないもどかしさに直面するケースが増えています。なぜ、単発のタスクでは優秀なAIが、一連のプロジェクトになると急に失速してしまうのか。2025年後半から登場した実務特化型のベンチマークをもとに、課題と対策を整理してみます。なお、以下の内容は筆者の経験談ではなく、2025年から2026年にかけて公開された研究論文や技術レポートに基づく示唆であることをご留意ください。 「単発タスク」は得意になっ...
3日前

世は大環境時代 - エージェントハーネスとRL環境の展開から見えてくるもの
2
松尾研究所テックブログのフィード
松尾研究所の長谷です。データサイエンスチームのマネージャーを務めております。2026年に入って「ハーネスエンジニアリング」がバズワードになりました。同時に、強化学習(RL)の文脈でも「RL環境」への注目が急速に高まっています。この2つ、使われている領域は異なりますが、根っこの思想は驚くほど似ています。どちらも「モデルだけではなく、モデルを取り巻く環境の設計が成果を左右する」という認識に立っていて、さらにその環境をポータブルに共有・再利用できる仕組みが同時多発的に生まれています。この記事では、エージェントハーネスとRL環境それぞれの動向を整理しつつ、両者に共通する思想がなぜリーズナ...
6日前

松尾研究所インターン修了式2026を実施しました
松尾研究所テックブログのフィード
松尾研究所ではインターン生の修了式を実施しています。今年も、終始和やかな雰囲気の中で、これまで研究所を支えてくれたインターン生の皆さんの門出をお祝いする時間となりました🌸 修了式概要と開催意図松尾研究所では、長きにわたってAIエンジニアとして活躍してくれたインターン生の修了式を開催しました。インターン生の皆さんは、日々の研究開発やプロジェクトを通じて実践的なスキルを磨きながら、松尾研究所の活動を力強く支えてくださいました。3月は卒業や進路の変化に伴い、新たな一歩を踏み出すメンバーも多く、今回の修了式は、これまで一緒に働いてきたデータサイエンティストも集まって皆さんの門出を祝うと...
8日前

Prime Intellect Labで始めるAgentic RL ―― 4BモデルでGPT-5を超える
松尾研究所テックブログのフィード
松尾研究所の太田・尾崎です.昨今自律的な行動をとることのできるエージェントが流行っていますが,これらはLLMに外部環境との作用が可能なツールを持たせたものとみなすことができます.なのでAgentが適切に行動するにはWeb検索や書類作成等のツールを適切に利用することが必須であり,そのためには正しい指示(ツールのマニュアル)やロバストなツール設計(MCPといったプロトコル化)が重要になります.そうしたなか,ツールの利用方法を推論時にコンテキストで渡すのでなく,事後学習のタイミングであらかじめ教える「Tool/Agentic Reinforcement Learning」(以後 Agent...
9日前

DPO学習におけるバッチサイズと勾配累積がlossに与える影響を検証
松尾研究所テックブログのフィード
はじめに株式会社 松尾研究所インターンの松本です。本記事では、LLMの学習手法であるDPOにおけるバッチサイズについて扱います。DPO(Direct Preference Optimization)とは、好ましい回答(chosen)と好ましくない回答(rejected)のデータを用いて、モデルが人間にとってより望ましい応答を生成できるように学習するアライメント手法です。バッチサイズとは、1回の学習ステップで同時に処理されるデータサンプル数を指します。一般的に、バッチサイズを大きくすると勾配が安定し、学習が安定しやすくなります。一方で、バッチサイズを小さくすると勾配に分散が大...
16日前

AI時代におけるタスク管理を考える
松尾研究所テックブログのフィード
こんにちは,松尾研究所の尾崎です.25卒でデータサイエンティストをやっています.最近,AIエージェントがコードを書き,メールを要約し,会議を記録してくれる時代になりました.Claude Codeを複数同時に走らせたり,AIに調査を任せながら別の作業をしたり——気づけば,自分の仕事のやり方そのものがかなり変わってきています.しかし,そもそも「何をやるか」を管理するタスク管理そのものは,まだ従来のやり方のままという方も多いのではないでしょうか.本記事では,自分自身のタスク管理環境を紹介しつつ,AI時代に「マルチタスク」の意味がどう変わっていきそうかを考え,AIがタスク管理にどこまで関与で...
17日前

コーディングエージェントのサンドボックス技術を理解する
松尾研究所テックブログのフィード
株式会社松尾研究所の渡辺です。CodexやClaude Codeなどのコーディングエージェントは開発者のシェルとほぼ同じことができるようになっています。エージェントの中でnpm install を許可した際に、そのpostinstallスクリプトが ~/.ssh/id_rsa を読んで機密情報を外部に送信するといったことも理論上は起こりえます。このような事故を防止できるのが、サンドボックスです。本来のシステムから隔離された環境のことをサンドボックスと呼びます。本記事では、コーディングエージェントを走らせる際に、知っておくと役立つサンドボックス技術についてご紹介します。自分自身がCl...
20日前

LLM-jp FT-LLMコンペに直球ど真ん中ストレートを投げ込んだ(つもりの)話
松尾研究所テックブログのフィード
松尾研究所の尾崎です.25卒でデータサイエンティストをやっています.本記事では,LLM-jp FT-LLMコンペティションにおける我々チームの取り組みをご紹介します.NLP2026で発表した論文「LLM-jp FT-LLMコンペにおける数学推論能力向上の取り組み」(尾崎・力岡・渡部・Jeong)の内容をベースに,ブログ向けに再構成しています.このコンペは,LLM-jpが主催するファインチューニングの公開コンペティションで,llm-jp-4-8b(2026/03/23現在未公開)をベースモデルとして,中学校・高等学校レベルの数学問題500問の正答率を競うというものです.推論時にはllm...
21日前

NLP2026の最優秀賞・優秀賞から見る言語処理最前線
松尾研究所テックブログのフィード
松尾研究所の尾崎です.25卒でデータサイエンティストをやっています.2026年3月9日から13日にかけて,栃木県宇都宮市のライトキューブ宇都宮にて言語処理学会第32回年次大会(NLP2026)が開催されました.NLP2025(長崎)に引き続き過去最大規模の記録更新が続いており,LLMブーム以降の自然言語処理分野の勢いを肌で感じました.NLP2026の看板.会場はライトキューブ宇都宮.今年度から尾崎はYANS(言語処理若手シンポジウム(YANS))の運営委員に就任しましたので,来年以降もNLPには継続で参加します.皆さんとお会いできるのを楽しみにしています.YANSへのご参加もぜひ...
22日前

【入社エントリ】新卒で松尾研究所に入社しました
松尾研究所テックブログのフィード
はじめまして、株式会社松尾研究所に2025年度新卒入社いたしました橋本です。2025年4月に入社して、もうすぐ1年が経ちます。入社エントリを書こうとはずっと思っていました。ただ、書こうとするたびに、自分の中にまだ定まっていないものがあると感じ、筆を置いてしまっていました。1年経つ今も、それは定まっていません。それでも、定まらないままでも、わからないままでも書いていいのだろうと思うようになり、新卒の肩書が剥がれてしまうこの砌で書き留めることにしました。本稿は、明快な決意や何かの答えを差し出す文章ではありません。データサイエンティストとして1年を過ごした自分が、今この時点で考えている...
23日前

Vibe Codingは実プロジェクトで通用するのか? 約6ヶ月試してわかったことと必要なスキル
松尾研究所テックブログのフィード
1. はじめに:この記事の前提と、私の定義する「Vibe Coding」本題に入る前に、少しだけ私の立ち位置とこの記事の前提をお話しさせてください。私はプログラマーとして約5年働いた後、現在はデータサイエンティストとしてAI構築とシステム構築を並行して行っています。そのため、この記事でお話しする 「Vibe Codingは実プロジェクトで通用する」という結論は、あくまで私が身を置くデータサイエンスやAI開発の領域での話かもしれません。純粋なWebフロントエンド開発や、巨大なエンタープライズ系システムなど、他のIT分野でそのまま通用するかどうかは私自身テストしていません。しかし...
1ヶ月前

Claude Code Orchestra: Claude Code × Codex CLI × Gemini CLIの最適解を探る
松尾研究所テックブログのフィード
Claude Code Orchestra: Claude Code × Codex CLI × Gemini CLIの最適解を探るこんにちは,松尾研究所の尾崎です.25卒でデータサイエンティストをやっています.最近はClaude CodeやCodex CLI,Gemini CLIといったCLIベースのAIコーディングアシスタントが急速に普及してきました.皆さんも日常的に使っている方が多いのではないでしょうか.しかし,単一のツールだけでは対応しきれない場面が増えてきています.Claude Codeは最も利用されているであろうCLI Agentですが,複雑な設計判断はCodex ...
3ヶ月前

Attention再入門 is all you need
松尾研究所テックブログのフィード
Attention再入門 is all you need松尾研究所の尾崎です.25卒でデータサイエンティストをやっています.Attention機構は,"Attention is all you need"論文で一気に脚光を浴びて以来,昨今のAIブームを支えるLLM(transformer)の根幹的技術です.今回はそんなAttention機構が登場以来,どういう方向で進化してきたのかを整理して,皆さんの興味を発掘したり,普段何気なく使っている技術の裏側を学ぶきっかけにしたり,していただきたいと思い,本記事執筆に至っています.※本記事は社内で行った勉強会からの抜粋となっております....
3ヶ月前

NeMoフレームワークを用いたLLMの学習
松尾研究所テックブログのフィード
NeMoフレームワークを用いたLLMの学習松尾研究所の尾崎です.25卒でデータサイエンティストをやっています.元来,LLMの構築にはデータの準備から学習.評価まで様々な工程がありますが,統一的なパイプラインを作るには複数のメーカーの異なるツールや独自実装との混合を検討する必要があります.たとえばデータ準備は独自実装,事前学習はMegatronベース,事後学習ではtrlベース,評価はlightevalベース,のようにいくつかのツールを組み合わせていくことが常でした.今回紹介するNVIDIA NeMo Frameworkは,大規模言語モデル(LLM),マルチモーダルモデル,音声A...
3ヶ月前

Claude Code中心のAIコーディング運用:実務で効いた5つの型
松尾研究所テックブログのフィード
AIコーディング前提の開発プロセスを仕組み化はじめまして。松尾研究所の中川です。AIコーディングを前提に、提案から開発・運用までを一気通貫で進めるスタイルは増えつつあります。弊社のプロジェクトでも、AIコーディングは単なる「補助」ではなく、開発プロセスの中核として扱われる場面も多くなってきました。私も小規模体制で開発速度と品質を両立するために、Claude Codeの運用における 並列化・プロンプト運用・レビュー自動ループ・ナレッジ一元化・インストラクション(Skills) の5点を“仕組み”として作っています。この記事では、Claude Code中心のAIコーディング手法を...
4ヶ月前

MCPつかってLLMにラップさせてみた
松尾研究所テックブログのフィード
はじめにこんにちは、松尾研究所 データサイエンティストの渡邊です。本記事は、松尾研究所 Advent Calendar 2025の記事です。最新のLLMは様々なタスクで驚異的な性能を発揮していますが、「韻を踏んだラップ歌詞」の自動生成は未だに苦手としています。これは、LLMの主な学習対象であるWebデータのほとんどが音韻に結びついていないためと考えられます。特に日本語においては、韻を踏める単語への理解が浅いのが現状です。そこで本記事では、韻を踏める単語を提示してくれるMCPツール、通称「韻MCP」を実装することで、LLMに高品質なラップ歌詞を生成させるアプローチを紹介します...
4ヶ月前

Kaggleの5-Day AI Agents Intensive Course with Googleをやってみた
松尾研究所テックブログのフィード
こんにちは、松尾研究所 データサイエンティストの奥村です。この記事は、松尾研究所 Advent Calendar 2025の記事です。2025年11月10日から14日にかけて、Kaggleで5-Day AI Agents Intensive Course with Googleが開催されていました。用いられた教材はすべて公開されており、後からでも自分のペースで学習できるようになっています。この講座のcodelab(ハンズオン形式のチュートリアル)をすべてやってみたので、その内容について感想を交えながら紹介したいと思います。全体的な流れとしては、GoogleのAIエージェントフレーム...
4ヶ月前

強化学習で能力は“創発”するのか? - RLスケール則の現在地(2025)
松尾研究所テックブログのフィード
はじめにこんにちは、株式会社松尾研究所のデータサイエンティストの勇川です。今回は松尾研究所 Advent Calendar 2025の記事の執筆ということで、ここ1〜2年における強化学習研究の動向を整理します。とりわけ、強化学習のスケール挙動を正面から分析する研究が相次いで登場していることを踏まえ、「強化学習は本当に能力を獲得しているのか」という問いを改めて捉え直します。 再定義される「強化学習のスケール」大規模言語モデル(LLM)の世界では、モデルサイズ・データ量・計算量を増やすことで性能が滑らかに向上する、いわゆるスケール則が広く受け入れられてきました(Kaplan e...
4ヶ月前

AIエージェントの最前線~シングルからマルチAIエージェントへの進化につながる技術とマルチAIエージェントの現在地~
松尾研究所テックブログのフィード
この記事は松尾研究所 Advent Calendar 2025の19日目の記事です。 はじめに松尾研究所のデータサイエンスチームでマネージャーを務めています長谷です。松尾研究所では、企業との取り組みをさらに加速するためにR&Dの取り組みを開始し、AIの社会実装に向けた最新技術の調査と、重点研究開発領域の選定・実施を進めています。本記事では、その取り組みの一環として実施したマルチAIエージェントに関するサーベイ結果の一部を紹介します。本取り組みは弊社メンバーの太田さん、大西さん、尾崎さん、北さん、橋本さん、渡邊さん(五十音順)と共に実施しました。非常に長文ですので、興味...
4ヶ月前

SAM-Audio達でつくる音声分離アプリ「Click to Hear」
松尾研究所テックブログのフィード
こんにちは。松尾研究所 データサイエンティストの穴井です。この記事は松尾研究所 Advent Calendar 2025の22日目の記事です。 はじめにMeta社が2025年12月15日にSAM(Segment Anything model)シリーズの最新作、SAM-Audioを公開しました。公式サイトhttps://ai.meta.com/samaudio/公式サイトのデモをみて精度・ユニークさに感動してたんですが、「公式サイトのデモ(動画中の対象物をクリック->音声分離)かっこいいなー。だけど実際はI/Fつけないとクリックで動かないんだよな。じゃあ作ってみるか」と...
4ヶ月前