AI時代のインフラ

道を作る人

子供の頃に聞いた言葉：富を得たければ、まず道を作れ。

これは技術分野にも当てはまる。各技術革命の爆発の背後には、大規模なインフラ建設がある。蒸気機関時代は鉄道、電気時代は電力網、インターネット時代は光ファイバーとデータセンター。インフラはセクシーではないが、なければ、どんなに良い技術も動かない。

今度はAIの番だ。

GPTが登場後、誰もがモデルの賢さと能力を語る。しかし真剣に語る人は少ない：AIを本当に動かすには、何の道を作る必要があるか？

この記事で語りたいのはそれ——AI時代のインフラ、一体どんな姿か。

算力：最も目立つ層

AIインフラと言えば、大多数の人の第一反応はGPU。確かに、算力は最も目立ち、最も金がかかる層。NVIDIAの時価総額が全てを物語る。

しかし算力の物語は「より多くのカードを買う」だけではない。

大規模モデルの訓練には数千枚のGPUが数ヶ月協同作業する必要があり、背後には分散コンピューティング、高速インターコネクト（InfiniBand/NVLink）、大規模クラスタスケジューリング、障害復旧……各項目がハードコア工程。OpenAIのGPT-4訓練クラスタが何度障害を起こし、何度checkpoint復旧したか、外部の人は想像しにくい。

推論側の挑戦は全く異なる。訓練は一度きり（非常に高価だが）、しかし推論は継続的——各ユーザーの各会話が算力を消費。製品に数億ユーザーがいる時、推論コストこそ本当の大物。だから各社が推論最適化を競う：量子化、蒸留、投機的デコード、KV Cache最適化……

しかし算力は氷山の一角。 インターネット時代にサーバーだけでは不十分で、CDN、ロードバランシング、データベースも必要だったように、AI時代にGPUだけでは全く不十分。

データ：算力より希少な資源

繰り返し検証された法則がある：データの品質がモデルの上限を決め、算力はその上限にどれだけ速く近づけるかを決める。

インターネット上の公開テキストはほぼスクレイピングされた。各モデル企業は高品質データに困っている。荒唐無稽に見えるニュースがある——ある企業が出版社全体の版権を大金で購入、ある企業が数万人を雇ってデータアノテーション、ある企業が自社モデルで合成データを生成し訓練に使用。

データインフラにはいくつかの層がある：

採集と洗浄。 生データは汚く、重複し、偏見がある。使える訓練データに変えるには、完全なpipelineが必要：重複排除、フィルタリング、脱個人化、フォーマット化。これらの作業は栄誉がないが、モデルの基調を決める。

アノテーションとアライメント。 RLHF（人間フィードバックからの強化学習）には大量の高品質人間嗜好データが必要。アノテーターのレベルはモデルの「三観」に直接影響。これは労働集約的な環節で、最も過小評価される環節でもある。

データフライホイール。 本当に優れた企業は一度データを完成させるのではなく、データフライホイールを構築——ユーザーが製品を使用しデータを生成、データがモデルにフィードバック、モデルが製品を改善、製品がより多くのユーザーを引き寄せる。ChatGPTのデータフライホイールは既に回り始めた、これは後発者が最も追いつきにくい障壁。

モデルサービス：実験室から本番環境へ

良いモデルを訓練するのは始まりに過ぎない。それを安定、効率的、スケーラブルなサービスに変えるのは、また別の巨大な工程。

ここにはいくつかの重要な問題がある：

推論エンジン。 vLLM、TensorRT-LLM、SGLang……これらの推論フレームワークがすることは：同じGPUでより多くのリクエストをサービスできるようにする。Continuous batching、PagedAttention、Speculative decoding——各最適化が数倍のスループット向上をもたらす。

モデルルーティング。 全てのリクエストが最大モデルを必要とするわけではない。簡単な挨拶にGPT-4で回答するのは無駄。インテリジェントルーティングシステムはリクエストの複雑さに応じて、適切なモデルに分配——簡単なものは小モデル、複雑なものは大モデル、節約も速度も。

キャッシュと事前計算。 多くのリクエストは類似している。セマンティックキャッシュは類似質問の答えを直接返し、推論オーバーヘッドを省ける。Promptプレフィックスキャッシュは KV Cache を再利用し、重複計算を減らせる。

観測可能性。 モデルは決定論的システムではなく、同じ入力が異なる出力を生む可能性がある。レイテンシー、スループット、エラー率を監視する必要があり、出力品質も監視が必要——幻覚がないか、有害コンテンツがないか、期待から逸脱していないか。これは伝統的APMより複雑。

Agentインフラ：過小評価される新戦場

大規模モデルがAI時代の「エンジン」なら、Agentは「完成車」だ。そしてAgentを動かすには、独自のインフラが必要。

記憶システム。 前の記事で詳しく語った。Agentには短期記憶（現在会話）、作業記憶（現在タスクコンテキスト）、長期記憶（ユーザー嗜好と履歴知識）が必要。今の大多数のAgentの記憶はまだ原始的——context windowに全部詰め込むか、RAG検索を使う。未来にはより優雅な記憶アーキテクチャが必要。

ツールエコシステム。 Agentの能力は呼び出せるツールに依存。ブラウザ、コード実行器、ファイルシステム、API呼び出し……各ツールには標準化されたインターフェース、権限制御、エラー処理が必要。MCP（Model Context Protocol）がこの問題を解決しようとしているが、まだ初期段階。

オーケストレーションフレームワーク。 複雑タスクには複数Agentの協力、または1 Agentの複数ステップワークフローが必要。LangChain、CrewAI、AutoGenが取り組んでいるが、正直現在のオーケストレーションフレームワークはまだ粗い。本当の挑戦は「どう繋ぐか」ではなく、「エラー時どうするか」——リトライ、ロールバック、人工介入、部分復旧、これらは伝統的ワークフローエンジンで既に解決済みの問題だが、Agent領域では再解決が必要。

サンドボックスとセキュリティ。 Agentはコード実行、ファイルシステムアクセス、ブラウザ操作可能——つまり破壊能力がある。サンドボックスで能力境界を制限し、監査ログで何をしたかを追跡し、人工承認メカニズムで高リスク操作を阻止する必要がある。

評価：AIの「品質検査体系」

伝統的ソフトウェアにはユニットテスト、統合テスト、ストレステストがある。AIシステムの評価はより困難、出力が非決定論的で、「正しい」の定義自体が曖昧だから。

しかし評価体系なしでは、盲人象を撫でるようなもの。

ベンチマークテスト。 MMLU、HumanEval、GSM8K……これらの公開benchmarkは有用だが、制限もある——モデルはbenchmarkでスコア稼ぎ、実際シナリオで期待外れかもしれない。

領域評価。 各具体的アプリケーションには独自の評価セットが必要。カスタマーサービスボットなら実際の顧客対話で評価、コードアシスタントなら実際のコードタスクで評価。高品質領域評価セット構築自体がインフラ作業。

オンライン評価。 A/Bテスト、ユーザー満足度、タスク完了率……これらの指標は本番環境で継続収集が必要。そして「モデルが良くなった」と「promptが良くなった」と「ユーザーが変わった」を区別する必要がある——これは伝統的A/Bテストより複雑。

レッドチームテスト。 専門でモデルの脆弱性を探す——有害コンテンツを誘導できるか、セキュリティ制限を回避できるか、訓練データを漏洩するか。これは攻防対抗プロセスで、専門チームとツールが必要。

開発者視点：新時代の開発パラダイム

開発者として、最も深く感じるのは：AIが「コードを書く」こと自体を変えている。

以前の開発パラダイムは：コード書き → コンパイル → テスト → デプロイ。今は次元が増えた：prompt書き → モデル調整 → 評価 → 反復。 これは置き換えではなく重畳。システムには決定論的コードロジックと非決定論的モデル呼び出しがあり、両者が協同作業する必要がある。

これは新しいインフラ需要をもたらす：

Prompt管理。 Promptは新時代の「コード」で、バージョン管理、A/Bテスト、グレーリリースが必要。しかし今の大多数チームはまだpromptをコードにハードコード、prompt変更で毎回リリース。

モデルゲートウェイ。 アプリケーションは複数のモデルプロバイダーを同時呼び出す可能性——OpenAI、Anthropic、ローカルデプロイのオープンソースモデル。統一ゲートウェイでAPI key管理、ロードバランシング、降格処理、コスト制御が必要。

開発ツール。 IDEのAIアシスタント（Copilot、Cursor）は始まりに過ぎない。未来の開発ツールはAIを深く統合——コード補完だけでなく、プロジェクト全体理解、アーキテクチャ決定支援、自動テスト作成、自動コードレビュー。

コスト管理。 AI呼び出しはtoken課金で、価格差が巨大——GPT-4の価格はGPT-3.5の数十倍。各機能のAIコストを監視し、予算管理し、品質とコストのバランスを取る必要がある。

終局：水道電気のようなAI

最初の比喩に戻る。

電力が登場した時、各工場が自前で発電所を建てた。後に電力網ができ、電気は公共サービスになった——電気がどう発電されたか知る必要なく、プラグを差せば使える。

インターネットも類似プロセスを経験。自前機房からホスティング、クラウドコンピューティング、Serverlessへ——抽象層はますます高く、開発者が気にする底層詳細はますます少なく。

AIインフラの終局も、そうあるべき。

開発者はGPUスケジューリング、モデルデプロイ、推論最適化を気にする必要がない。ただ「自然言語を理解するインターフェースが必要」または「画像分析能力が必要」と言うだけで、インフラ層が全て自動処理。

私たちは今「自前発電所」の段階。各企業が自前でGPUクラスタ構築、モデル訓練、推論サービス構築。これは正常——新技術の初期は常にそう。しかしトレンドは明確：標準化、サービス化、民主化。

今後5年、AIインフラは急速な標準化を経験する。AWSがクラウドコンピューティングの基本形態を定義したように、AIインフラの基本形態を定義する企業が現れる。その時、「AIを使う」は「データベースを使う」のように自然——AI専門家である必要なく、製品にAI能力を使える。

最後に

各時代のインフラはセクシーではない。鉄道を作る人は列車に乗る人より華やかではなく、データセンターを建てる人はアプリを作る人より有名ではない。しかし彼らなしでは、列車は走らず、アプリも開かない。

AI時代も同じ。スポットライトはモデルとアプリに当たるが、この時代がどこまで行けるかを本当に決めるのは、下にある目立たないインフラ——データパイプライン、推論エンジン、Agentフレームワーク、評価体系、開発ツール。

富を得たければ、まず道を作れ。この言葉は、AI時代でも成立する。

もしあなたが開発者なら、私のアドバイス：モデルの話題だけ追わず、インフラ層で何が起きているかも見る。そこにはより持続的な機会があり、より堅実な価値がある。

結局、潮が引いた後に残るのはインフラだ。