これ、知ってますか? 自分の声を録音して、ElevenLabsの「Voice Library」にアップロードするだけで、他の人がその音声を使うたびにロイヤリティが入るんです。
ElevenLabsはこれまでに累計$5M以上をボイスクリエイターに支払っていて、5,000以上のプロ音声がライブラリに登録されています。「声を売る副業」って聞くとちょっと怪しく聞こえるかもしれないですけど、仕組み自体はかなりちゃんとしてます。
なぜ今この副業が注目されるのか
AI音声市場の急拡大
- ElevenLabsは2024年に評価額$3.3Bのユニコーンに成長しています
- AI音声エージェント、オーディオブック、動画ナレーションの需要が爆発的に増えてます
- 「自分の声を一度登録するだけで継続収入」というモデルが海外で話題になってるんですよね
海外のAI副業トレンドとの関係
海外のMedium等では「AIを活用した低労力の副業」をまとめた体験談がたくさん出てきてます。
その中でもElevenLabsの音声ライセンスは、初期セットアップ後の維持工数がほぼゼロなんです。
テンプレート販売やフリーランス自動化、グラフィック生成と比べても、パッシブ度が突出してます。
ただ、正直に言うと収益面では控えめです。
フリーランスギグやチャットボット構築みたいにアクティブに稼働する副業には金額では勝てません。
この副業の本質は「高時給」じゃなくて、「限りなくゼロに近い維持コストで細く長く稼ぐ」 ことなんですよね。
ここを理解してないと「思ったより稼げない」って感じちゃうと思います。
収益構造の詳細
基本レート
- ベースレート: $0.03 / 1,000文字(約90秒の音声に相当)
- HQステータス・ニッチ音声: 最大 $0.20 / 1,000文字まで設定可能
- AI Agents利用時: TTS単価の約1/5(分単位で計算)
収益の現実的レンジ
ここ、大事なのでしっかり見てほしいです 👇
正直、大半の人はエントリーの$20-80あたりだと思います。ここを「月$1,000余裕!」みたいに煽ってる記事は信用しない方がいいです。
収益計算の具体例
具体的に計算してみると、こんな感じです:
- 10分のYouTubeスクリプト(約9,000文字)→ 約$0.27の収益
- 月$80を達成するには、月間約270万文字分の利用が必要
- 月$320(別のMedium体験談で報告あり)なら約1,070万文字分
- 利用者が多いほど積み上がる「ロングテール型」の収入構造
1件あたりの収益は小さいんですけど、使う人が増えると勝手に積み上がっていくのがこの仕組みの面白いところです。
支払い条件
- 最低支払額: $10
- 支払い頻度: 週1回(6-8日ごと)、Stripe Connect経由
- 対象: 有料ユーザーの利用のみ(無料ユーザーの利用は対象外)
週1で振り込まれるのは地味に嬉しいポイントですね。
初期投資と必要なもの
必須コスト
- ElevenLabs Creator Plan: $22/月(セール時$11/月)
- Professional Voice Cloningに必要な最低プラン
- 最大30のカスタム音声作成可能
⚠️ ここ、多くの体験談で触れられてないんですけど超重要です。
月$80稼いでもプラン代$22を引くと実質$58なんですよね。
「月$80のパッシブ収入!」って書いてある記事はだいたいこのコストを無視してます。
録音機材
- 最低限: USBコンデンサーマイク
- 推奨: XLRマイク + オーディオインターフェース
- ポップフィルター: 破裂音を防ぐために強く推奨
- 録音環境: 静かな部屋(毛布やクッションで簡易防音可能)
いきなり高いマイク買わなくて大丈夫です。USBマイクで始めて、手応えがあったら投資すればOKだと思います。
録音量
- 最低限: 30分の音声データ
- 推奨: 2-3時間の音声データ(品質が大幅向上)
- 公式推奨: 30-120分のクリーンで多様な読み上げ
30分でも始められるんですけど、2-3時間録ると音声モデルの品質がかなり変わるみたいです。ここは手を抜かない方がいいですね。
録音の技術的ポイント
音声品質の要件
- ピークレベル: -6dB 〜 -3dB
- 平均ラウドネス: -18dB
- ノイズ: バックグラウンドノイズ、残響、エコーを排除
- 話者: 必ず1人のみ(複数話者はAIが混乱します)
録音時のコツ
これ、結構知らないと失敗するポイントなので覚えておいてください 👇
- マイクとの距離: 拳2つ分(約15-20cm)がベスト
- 一貫したトーン: テンション高めと落ち着いた声を混ぜるとAIモデルが不安定になります
- 録音スタイル = 出力スタイル: オーディオブック用ならその読み方で録る。ナレーション調ならナレーション調で
- AIは全てを複製する: ノイズ、咳、間合いも含めて再現されるので、クリーンさが命です
特に4番目は本当に大事で、「まぁいいか」で残したノイズがそのままAI音声に出てきちゃうんですよね。
本人確認
- ElevenLabsは自分の声のみのクローン作成を許可しています
- 認証プロセスを通過する必要あり
他人の声を勝手に登録するのはNGです。ちゃんと本人確認があるのは安心材料でもありますね。
戦略的考察
なぜ「ニュートラルな声」が有利なのか
- 汎用性が高くて、ナレーション、ポッドキャスト、e-learning等の幅広いユースケースに対応できます
- ドラマチックなトーンや特殊アクセントは用途が限定されがちです
- ただし逆張り戦略もあり得ます(後述)
差別化戦略: ニッチ音声の可能性
ここが面白いところなんですけど、ライブラリには5,000以上の音声が既にあるんですよね。つまり普通の声だと埋もれるんです。
- 特定のアクセント(例: 英国英語、オーストラリア英語)は需要があるのに供給が少ない
- 特殊なトーン(例: ASMRっぽい、権威的、温かみのある)でニッチを狙う手もあります
- HQステータスを獲得できれば、レートを最大$0.20/1,000文字まで引き上げ可能
- ベースレート比で約6.7倍の単価差 → ニッチ戦略のインパクトはかなり大きいです
日本語話者としてのアドバンテージ
これ、私たちにとってけっこう重要なポイントだと思うんです。
- ElevenLabsは29言語対応 → でも日本語ネイティブの高品質音声はまだ少ない可能性が高い
- 日本語ナレーション需要(アニメ関連、日本語学習教材、ローカライズ等)は確実にあります
- 英語と日本語の両方で登録すれば、収益源を二重化できる
- 特に「自然な日本語」は合成が難しいので、ネイティブ音声の価値が高いんですよね
要するに、日本語話者ってだけでブルーオーシャンの可能性があるんです。
収益最大化のポイント
- 録音品質への投資: 高品質な録音は使用率に直結します
- 十分な録音量: 最低限30分じゃなくて2-3時間を目標にする
- 複数の音声バリエーション: 異なるスタイルの音声を複数登録
- HQステータスの獲得: より高い単価設定が可能に
- ニッチの特定: 競争が少なくて需要のある声質を狙う
AI副業ポートフォリオとしての位置づけ
パッシブ度で分類するAI副業の3層構造
私、AI副業は「いくら稼げるか」よりも「維持にどれだけ手間がかかるか」で選ぶべきだと思ってるんです。大きく3つに分けるとこうなります:
層1: 完全パッシブ(放置型) 🟢
- ElevenLabs音声ライセンス
- AI生成素材の販売(グラフィック、アイコン等)
- デジタルテンプレート販売(制作後は放置)
層2: セミパッシブ(定期的に軽い作業) 🟡
- アフィリエイト記事(SEO更新が必要)
- コンテンツバンドル販売(制作+軽い営業)
層3: アクティブ(都度の労働) 🔴
- フリーランスAI自動化ギグ
- 中小企業向けAIツール導入支援
この3層の特徴
- 層3が最も単価が高いけど、時間を食うしスケールしません
- 層1は少額だけど、一度仕込めば積み上がっていく → 時間の味方になります
- ElevenLabsは層1の中でも維持工数が最小 → 究極の「種まき型」です
時給換算で見ると景色が変わる
これ、私がこの副業を面白いと思った一番の理由なんですけど。
仮にElevenLabsの設定を1時間で完了して、月$80が入るとすると:
- 初月時点: 時給$80相当
- 2ヶ月目以降: 追加労働ゼロで月$80 → 累計時給は上がり続ける
- 1年後: 1時間の投資で$960回収 = 時給$960相当
対して、時給$50のフリーランスギグは毎月同じ時間を投入し続ける必要があります。この違いが「パッシブ収入の本質」なんですよね。
もちろん月$80が保証されてるわけじゃないですけど、考え方としてはすごく大事だと思います。
リスクと注意点
ここからはデメリットも正直に書きます。いいことばっかり書いても意味ないので。
ビジネスリスク
- プラットフォーム依存: ElevenLabsの方針変更で収益構造が変わる可能性があります
- 競合増加: Voice Libraryへの参加者が増えるほど、個々の収益は薄まります
- AI技術の進歩: 完全合成音声の品質が上がれば、人間の声のクローン自体の需要が減るかもしれません
- 月額コスト: Creator Plan ($22/月) の費用を回収できないリスクは普通にあります
倫理的・法的リスク
- 声の権利: 一度アップロードした音声モデルがどう使われるかの完全なコントロールは難しいです
- 声優業界への影響: AI音声が人間のナレーターの仕事を奪うっていう議論は活発化してます
- 規制リスク: EUのAI Act等で合成音声が「高リスクシステム」として規制される動きがあります
- ディープフェイク問題: AI音声技術全体への社会的不信感が高まる可能性も
ここは「自分の声を商品にする」ことに対して、どこまで許容できるかは人それぞれだと思います。無理に始める必要はないです。
体験談の信頼性について
⚠️ これ、言いにくいんですけど正直に書きます。
- 海外のMedium等で「ElevenLabsで月$○○稼いだ」系の記事が増えてますけど、多くはスクリーンショットによる収益証明がありません
- ベースレート$0.03/1,000文字から逆算すると、月$80は約270万文字、月$320は約1,070万文字の利用が必要。人気ボイスなら達成可能ですけど、参入直後には厳しい数字です
- 「誰でも簡単に!」のニュアンスで書かれた記事は、アフィリエイト目的の可能性も考慮すべきです
こういう情報を見極める力も大事ですよね。
現実的な期待値調整
- 月$80は「何もしなくて月$80」じゃなくて、$22のプラン代を引くと実質$58
- 初期セットアップ(録音、編集、アップロード、認証)に数時間かかります
- 収益が安定するまでに数週間〜数ヶ月かかることもあります
- 大半の人は月$20-80のレンジというのが現実です
- ただし「0円になるリスクも低い」のはポイント。一度選ばれ始めれば細く長く続きます
夢を見すぎず、でも悲観しすぎずっていうバランスが大事ですね。
💬 コメント
ログイン か 会員登録 するとコメントできます