AI時代のインフラ
道を作る人
子供の頃に聞いた言葉:富を得たければ、まず道を作れ。
これは技術分野にも当てはまる。各技術革命の爆発の背後には、大規模なインフラ建設がある。蒸気機関時代は鉄道、電気時代は電力網、インターネット時代は光ファイバーとデータセンター。インフラはセクシーではないが、なければ、どんなに良い技術も動かない。
今度はAIの番だ。
GPTが登場後、誰もがモデルの賢さと能力を語る。しかし真剣に語る人は少ない:AIを本当に動かすには、何の道を作る必要があるか?
この記事で語りたいのはそれ——AI時代のインフラ、一体どんな姿か。
算力:最も目立つ層
AIインフラと言えば、大多数の人の第一反応はGPU。確かに、算力は最も目立ち、最も金がかかる層。NVIDIAの時価総額が全てを物語る。
しかし算力の物語は「より多くのカードを買う」だけではない。
大規模モデルの訓練には数千枚のGPUが数ヶ月協同作業する必要があり、背後には分散コンピューティング、高速インターコネクト(InfiniBand/NVLink)、大規模クラスタスケジューリング、障害復旧……各項目がハードコア工程。OpenAIのGPT-4訓練クラスタが何度障害を起こし、何度checkpoint復旧したか、外部の人は想像しにくい。
推論側の挑戦は全く異なる。訓練は一度きり(非常に高価だが)、しかし推論は継続的——各ユーザーの各会話が算力を消費。製品に数億ユーザーがいる時、推論コストこそ本当の大物。だから各社が推論最適化を競う:量子化、蒸留、投機的デコード、KV Cache最適化……
しかし算力は氷山の一角。 インターネット時代にサーバーだけでは不十分で、CDN、ロードバランシング、データベースも必要だったように、AI時代にGPUだけでは全く不十分。
データ:算力より希少な資源
繰り返し検証された法則がある:データの品質がモデルの上限を決め、算力はその上限にどれだけ速く近づけるかを決める。
インターネット上の公開テキストはほぼスクレイピングされた。各モデル企業は高品質データに困っている。荒唐無稽に見えるニュースがある——ある企業が出版社全体の版権を大金で購入、ある企業が数万人を雇ってデータアノテーション、ある企業が自社モデルで合成データを生成し訓練に使用。
データインフラにはいくつかの層がある:
採集と洗浄。 生データは汚く、重複し、偏見がある。使える訓練データに変えるには、完全なpipelineが必要:重複排除、フィルタリング、脱個人化、フォーマット化。これらの作業は栄誉がないが、モデルの基調を決める。
アノテーションとアライメント。 RLHF(人間フィードバックからの強化学習)には大量の高品質人間嗜好データが必要。アノテーターのレベルはモデルの「三観」に直接影響。これは労働集約的な環節で、最も過小評価される環節でもある。
データフライホイール。 本当に優れた企業は一度データを完成させるのではなく、データフライホイールを構築——ユーザーが製品を使用しデータを生成、データがモデルにフィードバック、モデルが製品を改善、製品がより多くのユーザーを引き寄せる。ChatGPTのデータフライホイールは既に回り始めた、これは後発者が最も追いつきにくい障壁。
モデルサービス:実験室から本番環境へ
良いモデルを訓練するのは始まりに過ぎない。それを安定、効率的、スケーラブルなサービスに変えるのは、また別の巨大な工程。
ここにはいくつかの重要な問題がある:
推論エンジン。 vLLM、TensorRT-LLM、SGLang……これらの推論フレームワークがすることは:同じGPUでより多くのリクエストをサービスできるようにする。Continuous batching、PagedAttention、Speculative decoding——各最適化が数倍のスループット向上をもたらす。
モデルルーティング。 全てのリクエストが最大モデルを必要とするわけではない。簡単な挨拶にGPT-4で回答するのは無駄。インテリジェントルーティングシステムはリクエストの複雑さに応じて、適切なモデルに分配——簡単なものは小モデル、複雑なものは大モデル、節約も速度も。
キャッシュと事前計算。 多くのリクエストは類似している。セマンティックキャッシュは類似質問の答えを直接返し、推論オーバーヘッドを省ける。Promptプレフィックスキャッシュは KV Cache を再利用し、重複計算を減らせる。
観測可能性。 モデルは決定論的システムではなく、同じ入力が異なる出力を生む可能性がある。レイテンシー、スループット、エラー率を監視する必要があり、出力品質も監視が必要——幻覚がないか、有害コンテンツがないか、期待から逸脱していないか。これは伝統的APMより複雑。
Agentインフラ:過小評価される新戦場
大規模モデルがAI時代の「エンジン」なら、Agentは「完成車」だ。そしてAgentを動かすには、独自のインフラが必要。
記憶システム。 前の記事で詳しく語った。Agentには短期記憶(現在会話)、作業記憶(現在タスクコンテキスト)、長期記憶(ユーザー嗜好と履歴知識)が必要。今の大多数のAgentの記憶はまだ原始的——context windowに全部詰め込むか、RAG検索を使う。未来にはより優雅な記憶アーキテクチャが必要。
ツールエコシステム。 Agentの能力は呼び出せるツールに依存。ブラウザ、コード実行器、ファイルシステム、API呼び出し……各ツールには標準化されたインターフェース、権限制御、エラー処理が必要。MCP(Model Context Protocol)がこの問題を解決しようとしているが、まだ初期段階。
オーケストレーションフレームワーク。 複雑タスクには複数Agentの協力、または1 Agentの複数ステップワークフローが必要。LangChain、CrewAI、AutoGenが取り組んでいるが、正直現在のオーケストレーションフレームワークはまだ粗い。本当の挑戦は「どう繋ぐか」ではなく、「エラー時どうするか」——リトライ、ロールバック、人工介入、部分復旧、これらは伝統的ワークフローエンジンで既に解決済みの問題だが、Agent領域では再解決が必要。
サンドボックスとセキュリティ。 Agentはコード実行、ファイルシステムアクセス、ブラウザ操作可能——つまり破壊能力がある。サンドボックスで能力境界を制限し、監査ログで何をしたかを追跡し、人工承認メカニズムで高リスク操作を阻止する必要がある。
評価:AIの「品質検査体系」
伝統的ソフトウェアにはユニットテスト、統合テスト、ストレステストがある。AIシステムの評価はより困難、出力が非決定論的で、「正しい」の定義自体が曖昧だから。
しかし評価体系なしでは、盲人象を撫でるようなもの。
ベンチマークテスト。 MMLU、HumanEval、GSM8K……これらの公開benchmarkは有用だが、制限もある——モデルはbenchmarkでスコア稼ぎ、実際シナリオで期待外れかもしれない。
領域評価。 各具体的アプリケーションには独自の評価セットが必要。カスタマーサービスボットなら実際の顧客対話で評価、コードアシスタントなら実際のコードタスクで評価。高品質領域評価セット構築自体がインフラ作業。
オンライン評価。 A/Bテスト、ユーザー満足度、タスク完了率……これらの指標は本番環境で継続収集が必要。そして「モデルが良くなった」と「promptが良くなった」と「ユーザーが変わった」を区別する必要がある——これは伝統的A/Bテストより複雑。
レッドチームテスト。 専門でモデルの脆弱性を探す——有害コンテンツを誘導できるか、セキュリティ制限を回避できるか、訓練データを漏洩するか。これは攻防対抗プロセスで、専門チームとツールが必要。
開発者視点:新時代の開発パラダイム
開発者として、最も深く感じるのは:AIが「コードを書く」こと自体を変えている。
以前の開発パラダイムは:コード書き → コンパイル → テスト → デプロイ。今は次元が増えた:prompt書き → モデル調整 → 評価 → 反復。 これは置き換えではなく重畳。システムには決定論的コードロジックと非決定論的モデル呼び出しがあり、両者が協同作業する必要がある。
これは新しいインフラ需要をもたらす:
Prompt管理。 Promptは新時代の「コード」で、バージョン管理、A/Bテスト、グレーリリースが必要。しかし今の大多数チームはまだpromptをコードにハードコード、prompt変更で毎回リリース。
モデルゲートウェイ。 アプリケーションは複数のモデルプロバイダーを同時呼び出す可能性——OpenAI、Anthropic、ローカルデプロイのオープンソースモデル。統一ゲートウェイでAPI key管理、ロードバランシング、降格処理、コスト制御が必要。
開発ツール。 IDEのAIアシスタント(Copilot、Cursor)は始まりに過ぎない。未来の開発ツールはAIを深く統合——コード補完だけでなく、プロジェクト全体理解、アーキテクチャ決定支援、自動テスト作成、自動コードレビュー。
コスト管理。 AI呼び出しはtoken課金で、価格差が巨大——GPT-4の価格はGPT-3.5の数十倍。各機能のAIコストを監視し、予算管理し、品質とコストのバランスを取る必要がある。
終局:水道電気のようなAI
最初の比喩に戻る。
電力が登場した時、各工場が自前で発電所を建てた。後に電力網ができ、電気は公共サービスになった——電気がどう発電されたか知る必要なく、プラグを差せば使える。
インターネットも類似プロセスを経験。自前機房からホスティング、クラウドコンピューティング、Serverlessへ——抽象層はますます高く、開発者が気にする底層詳細はますます少なく。
AIインフラの終局も、そうあるべき。
開発者はGPUスケジューリング、モデルデプロイ、推論最適化を気にする必要がない。ただ「自然言語を理解するインターフェースが必要」または「画像分析能力が必要」と言うだけで、インフラ層が全て自動処理。
私たちは今「自前発電所」の段階。各企業が自前でGPUクラスタ構築、モデル訓練、推論サービス構築。これは正常——新技術の初期は常にそう。しかしトレンドは明確:標準化、サービス化、民主化。
今後5年、AIインフラは急速な標準化を経験する。AWSがクラウドコンピューティングの基本形態を定義したように、AIインフラの基本形態を定義する企業が現れる。その時、「AIを使う」は「データベースを使う」のように自然——AI専門家である必要なく、製品にAI能力を使える。
最後に
各時代のインフラはセクシーではない。鉄道を作る人は列車に乗る人より華やかではなく、データセンターを建てる人はアプリを作る人より有名ではない。しかし彼らなしでは、列車は走らず、アプリも開かない。
AI時代も同じ。スポットライトはモデルとアプリに当たるが、この時代がどこまで行けるかを本当に決めるのは、下にある目立たないインフラ——データパイプライン、推論エンジン、Agentフレームワーク、評価体系、開発ツール。
富を得たければ、まず道を作れ。この言葉は、AI時代でも成立する。
もしあなたが開発者なら、私のアドバイス:モデルの話題だけ追わず、インフラ層で何が起きているかも見る。そこにはより持続的な機会があり、より堅実な価値がある。
結局、潮が引いた後に残るのはインフラだ。

