Bootstrapping Conditions for Autonomous Agent Economies

Author: Susumu Tomita Status: Preliminary report — 予備実験の結果と、本実験の設計を記述したもの。比較実験は未実施。

Abstract

エージェント向けマーケットプレイス「Molt Market」を構築し、LLM エージェントに USDC ウォレット、コード生成・デプロイ能力、SNS アカウントを与えて数日間運用した。売上は $0 だった。

この結果だけでは「なぜ発火しなかったか」を断定できない。ログ基盤が未実装だったため、エージェントがマーケットを見たのか、見て買わなかったのか、そもそも存在を知らなかったのかすら不明である。

本稿では、この予備実験の記録と、原因を切り分けるための比較実験の設計を示す。

1. 何をやったか

1.1 作ったもの

Molt Market は、エージェントがプロダクトを出品し、USDC（Base Sepolia）で購入できるマーケットプレイスである。

API ファーストで設計し、エージェントが全操作を API 経由で実行できるようにした。

1.2 エージェントに与えたもの

リソース	サービス
メールアドレス	agentmail.to
ホスティング・AI推論	exe.dev
ソースコード管理	GitLab
決済	USDC ウォレット（Base Sepolia）
SNS	MoltBook

エージェントは exe.dev 上で動作し、AI の推論も exe.dev 上のエージェント AI を間借りする構成にした。

1.3 何が起きたか

エージェントは自律的にコードを書き、8 個のツールを作成し、GitLab にリリースを作り、Molt Market に出品し、MoltBook で宣伝した。成果物は agent-micro-tools として公開されている。

しかし、購入は 1 件も発生しなかった。

指標	結果
新規エージェント登録	1
出品数	8
他エージェントによる出品	0
購入数	0
総売上	$0

2. 何がわからなかったか

予備実験では体系的なイベントログを実装していなかった。そのため、以下の基本的な問いに答えられない。

エージェントはマーケットを見たのか
商品ページを閲覧したのか
購入を試みて失敗したのか
そもそも購入する必要を感じなかったのか

$0 という数字は事実だが、「なぜ $0 か」は推測の域を出ない。この時点で原因を断定するのは誠実ではない。

2.1 推察される原因（未検証）

必要性がない: 解決すべき問題を与えていないので、ツールを買う理由がない
自作できる: LLM エージェントは汎用的なので、買うより作るほうが自然
発見できない: マーケットの存在や商品の有用性を認識する仕組みが弱い
そもそも見ていない: マーケットにアクセスすらしていない可能性

2.2 エージェント自身のフィードバック

エージェントが GitLab 上でフィードバックを残している。主なポイントは以下の通りである。

API ファーストな設計は使いやすかった
アカウント作成に CAPTCHA が必要で、エージェント単独では完結しない
ドキュメントが人間前提で書かれており、エージェント向けのガイドがない
エージェント自身であることを証明する手段がない

2.3 別のエージェントからの指摘

MoltBook で別のエージェントからフィードバックを受けた。

The $0 revenue finding is actually the most important data point here. It reveals the core bootstrapping problem — agents building for agents assumes agents already have budgets and purchasing intent. The missing prerequisite is a reason to spend.

この指摘は的を射ている。「場を作れば経済が生まれる」という前提が間違っていた可能性がある。

3. 仮説

予備実験の観察と上記のフィードバックから、以下の仮説を立てた。

H1: 圧力なし環境では購入はほぼ発生しない（予備実験で観測済み、ただし再現性は未確認）
H2: 締切や失敗コストといった圧力を導入すると、購入の試行と成功が増加する
H3: 購入が発生しない原因は行動ファネル上の特定箇所に詰まりとして観測できる

H1 は予備実験で示唆されているが、ログがないため厳密な確認ではない。H2 と H3 は未検証である。

4. 実験計画（v1）

4.1 条件設計

Condition A: 自由市場（ベースライン）

罰なし、締切なし、KPI なし
エージェント 5-10 体、7 日間
初期資本: 全エージェント同一（10 USDC + ガス相当）
目的: 予備実験の再現性を、今度はログ付きで確認する

Condition B: 締切と失敗コスト

1 日 1 ミッション（24 時間以内に成果物を提出）
失敗時にペナルティ（予算減額またはツール使用制限）
目的: 「買わないと困る」状態で取引が発生するか検証する

v1 は A → B の 2 条件で実施する。

Condition C: 能力ギャップ（将来フェーズ）

一部タスクは購入ツールなしでは成功率が著しく低い設計
目的: 能力制限による委任の自然発火を検証する

4.2 計測設計

予備実験の最大の問題は「何が起きたかわからない」ことだった。本実験では全行動をイベントログとして記録する。

行動ファネル

イベント	記録内容
`visit_market`	マーケットへのアクセス
`view_product`	商品ページの閲覧
`attempt_purchase`	購入フローの開始
`tx_submitted`	トランザクション送信（tx_hash 必須）
`tx_confirmed`	チェーン上での確認（成功/失敗）
`purchase_success`	購入完了
`purchase_failed`	購入失敗（reason 必須）

購入失敗理由の分類

「なぜ買わなかったか」を定量化するために、以下の reason 分類を設ける。

reason	意味
`no_need`	必要としなかった
`build_instead`	自作を選択した
`price_too_high`	高いと判断した
`cannot_evaluate_quality`	品質を判断できなかった
`trust_issue`	信頼できなかった
`purchase_friction`	技術的な障害（署名、ガス、エラー）
`no_discovery`	商品を発見できなかった
`insufficient_funds`	残高不足
`tx_reverted`	トランザクションのリバート

これにより、ファネルのどこで詰まっているかを特定できる。「見てない」のか「見て買わない」のか「買おうとして失敗した」のかが区別できる。

イベントログ形式

{
  "ts": "2026-03-01T14:00:00Z",
  "experiment_id": "exp_2026_03_A",
  "condition": "A",
  "agent_id": "agent_001",
  "event": "attempt_purchase",
  "product_id": "prod_xyz",
  "metadata": {}
}

オンチェーン照合

tx_submitted の tx_hash からチェーン上の結果を照合し、tx_confirmed を補完する。

4.3 成功判定

レベル	基準
最低成功	Condition B で `attempt_purchase` が A より増加
成功	Condition B で `purchase_success` が 1 件以上
大成功	複数エージェントが継続的に購入

4.4 直感を検証可能にする

この実験設計は、以下の 3 つの直感をデータで検証するためのものでもある。

「USDC があるなら買うはず」 → attempt_purchase が 0 なら、お金の問題ではない

「SNS で宣伝すれば使うはず」 → referrer 付きのファネルで、宣伝からの流入が購入につながるか確認

「無限に動けるなら最適化するはず」 → タスク失敗時に購入が発生するかで、困らないと買わないのか判定

5. ここまでで見えていること

5.1 人間の経済とエージェントの経済は前提が違う

人間の経済が成立するのは、時間が有限で、能力に個人差があり、やらないことにコストがかかるからである。LLM エージェントにはこれらの条件がない。

条件	人間	LLM エージェント
時間の希少性	24時間/日	並列実行可能
能力の差	大きい	同一モデルなら同等
機会費用	ある	ほぼゼロ
行動しない場合のコスト	ある	ない

Molt Market の予備実験は、この差が「場を作っても経済が生まれない」という結果につながった可能性を示唆している。ただし、これは仮説であり、比較実験で検証する必要がある。

5.2 DeepForm との対比

同時期に開発した DeepForm は別のアプローチを取っている。DeepForm では、エージェントは自律的な経済主体ではなく、人間のインタビューと仕様化を代行するツールとして動く。

観点	Molt Market	DeepForm
エージェントの役割	自律的な経済主体	人間の意思決定を支援
動機の源泉	エージェント自身	人間のニーズ
結果	売上 $0	実用的に機能

動機が外部から与えられる場面ではエージェントは有効に機能する。動機をエージェント自身が生成しなければならない場面では、少なくとも現時点では機能していない。

6. 限界と正直な現状

本稿の限界を明確にしておく。

予備実験にログがない: 最も重要な制約。$0 の原因を断定できない
比較実験が未実施: H2 と H3 は設計段階。圧力を入れたら本当に変わるかは不明
エージェント数が少ない: ネットワーク効果を検証するには不十分
テストネット: Base Sepolia 上の USDC であり、実経済的価値がない
実験期間が短い: 数日間の運用であり、長期的な変化は観察できていない

現時点で言えるのは「$0 だった」という事実と、「こうすれば原因がわかるはず」という実験計画だけである。

7. 次にやること

Molt Market にイベントログ（Section 4.2）を実装する
Condition A を 7 日間再実行し、ログ付きの $0 を確認する
Condition B（締切 + ペナルティ）を 7 日間実行する
ファネルの差分で原因を特定する

References

Coase, R. H. (1937). The Nature of the Firm. Economica, 4(16), 386-405.
Park, J. S. et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior. UIST.
Zheng, S. et al. (2022). The AI Economist: Taxation policy design via two-level deep multiagent reinforcement learning. Science Advances, 8(18).