ChatGPTに社内データを学習させてよいか——入力・保持・参照範囲の分け方
ChatGPTに社内データを学習させる前に、入力、保存、検索参照、モデル学習の違いを整理し、情報管理上の判断軸を解説します。
「ChatGPTに社内データを学習させる」という言い方は、実務ではかなり曖昧です。プロンプトに貼る、ファイルをアップロードする、社内文書を検索対象にする、モデルの学習に使う。この四つはリスクも管理方法も違います。
「学習させる」は入力・保存・参照・モデル学習で意味が違う
この検索意図では、利用者は「社内データを入れると全部学習されるのか」「社内FAQを作るには何を許可すべきか」を知りたがっています。結論だけを急ぐと危険です。まず、入力、保持、参照、学習を分けて判断する必要があります。
出典クラスター:OpenAI Business Data Privacy、OpenAI Enterprise Privacy、個人情報保護委員会 生成AI注意喚起社内データ活用で権限事故が起きる構造
社内データ活用で問題になるのは、AIが賢いかどうかではなく、誰がどの情報にアクセスできるかです。権限のない社員が検索で閲覧できてしまう、退職者のファイルが残る、顧客情報が要約用に貼られるといった事故は、モデル以前の情報設計で起きます。
社内データを扱う前に見る判断軸
| 見るべき状態 | 起きている問題 | 先に直すこと |
|---|---|---|
| プロンプト入力 | 一時的に質問へ含める | 機密度とサービス条件を確認する |
| ファイル添付 | 会話やワークスペース内で参照される | 保存場所、共有範囲、削除方法を確認する |
| 検索インデックス | 社内検索のために文書を取り込む | 権限継承と参照ログを設計する |
| モデル学習 | モデル改善やfine-tuningに使う | 契約条件と明示的な同意範囲を確認する |
学習ではなく参照から始める設計手順
最初にデータを三分類します。公開済み資料、社内限定資料、顧客や個人を含む制限資料です。公開済み資料は要約や検索に使いやすく、社内限定資料はワークスペース権限と削除方法を決めてから扱います。制限資料は匿名化、マスキング、別環境での検証を検討します。モデル学習に使うかどうかは、通常の検索利用とは別の承認にします。
文書数より先に見る情報管理KPI
管理指標は、登録文書数ではなく、権限不一致の検知数、削除依頼への対応時間、参照ログの確認頻度、回答に使われた文書の追跡可能性です。社内検索やRAGでは、正しい回答より先に、見てよい文書だけが使われることを確認します。
出典クラスター:OpenAI Business Data Privacy、OpenAI Enterprise Privacy、個人情報保護委員会 生成AI注意喚起、METI AI事業者ガイドラインFULLFACTが見る実務論点
社内データ活用は、機密情報、個人情報、社内検索の三つを同時に扱います。機密情報の扱いは ChatGPTと機密情報、個人情報は AIと個人情報保護法、検索設計は 社内検索AI で補足できます。
「学習」と呼ばれがちな四つの処理を分解する
社内で「ChatGPTに社内データを学習させたい」と言うとき、実際には四つの処理が混ざっています。プロンプトに貼る、ファイルとしてアップロードする、検索対象として取り込む、モデル改善やfine-tuningに使う。この四つを分けないまま議論すると、必要以上に怖がるか、逆にリスクを見落とします。
| 処理 | 実務上の意味 | 先に確認すること |
|---|---|---|
| プロンプト入力 | 会話の文脈として一時的に渡す | 入力禁止情報、保存条件、共有範囲 |
| ファイルアップロード | 文書を会話やワークスペースで参照する | 削除方法、閲覧者、保持期間 |
| 検索対象化 | RAGや社内検索で参照する | 権限継承、出典表示、更新責任 |
| モデル学習 | モデル改善や個別モデルに使う | 契約条件、同意、目的外利用の有無 |
最初に決めるべきなのは、社内データをAIに使うかどうかではなく、どの処理を許可するかです。多くの企業では、モデル学習ではなく検索参照から始めるほうが現実的です。業務価値を出しながら、データの扱いを管理しやすいからです。
データ分類は細かすぎると運用されない
データ分類を厳密に作りすぎると、現場は判断できません。初期段階では、公開情報、社内限定情報、制限情報の三分類で十分です。公開情報は通常利用可、社内限定情報は会社管理アカウントと権限の範囲で利用可、制限情報は匿名化または承認制にします。
この分類を、実際の文書例とセットで置くことが重要です。「顧客情報は禁止」と書くだけでは、顧客名を伏せた議事録要約はどう扱うのか、契約書の条文だけならよいのか、担当者名を削ればよいのかが判断できません。例を増やすほど、現場判断は安定します。
権限継承ができない社内検索は危険
社内データ活用で最も危ないのは、AIが本来見られない文書を回答に使うことです。RAGや社内検索では、検索対象文書の権限をそのまま継承する設計が必要です。営業部だけが見られる提案資料、人事だけが見られる評価資料、経営層だけが見られる未公表資料を、同じ検索インデックスに雑に入れると事故につながります。
権限継承が難しい場合は、最初から全社検索を狙わず、公開範囲が広い文書だけに絞ります。人事FAQ、情報システムの手順書、総務の申請マニュアルのように、閲覧者が広く所有者が明確な文書から始めると安全です。
社内データ活用の承認フロー
社内データをChatGPTで扱う場合、すべてを情シス承認にすると現場が止まります。一方で、すべてを現場判断にすると危険です。公開情報、社内限定情報、制限情報ごとに承認フローを分けると、スピードと安全性のバランスが取れます。
| データ区分 | 承認 | 例 |
|---|---|---|
| 公開情報 | 原則不要 | Web公開資料、公開済みプレスリリース |
| 社内限定情報 | 部門責任者 | 社内FAQ、業務マニュアル、議事録の一部 |
| 制限情報 | 管理部門または情報責任者 | 顧客情報、契約、個人情報、評価情報 |
| 禁止情報 | 原則不可 | 要配慮個人情報、未公表の重要経営情報 |
承認フローは、厳しさよりも分かりやすさが重要です。社員が迷うたびに承認者を探す状態では、運用されません。データ区分、承認者、相談先を一枚にまとめ、事例を追加していくことが現実的です。
RAGとモデル学習を分けて説明する
社内説明では、RAGとモデル学習を明確に分ける必要があります。RAGは、社内文書を検索し、その検索結果をもとに回答する仕組みです。モデルそのものを社内データで再学習させるわけではありません。この違いを説明しないと、現場も経営者も過剰に不安になります。
FULLFACTでは、まずRAGや社内検索のように参照型の設計から始めることを推奨します。参照型なら、文書の権限、出典、削除、更新を管理しやすく、業務価値も出しやすいからです。fine-tuningや個別モデル学習は、利用目的とデータ管理が明確になってから検討すべき領域です。
社内データを入れる前に作る棚卸し
ChatGPTに社内データを扱わせたい場合、最初に必要なのは「どのデータを入れるか」ではなく「どのデータは入れないか」です。社内文書には、公開済みの資料、部門内の手順書、顧客固有の情報、契約情報、個人情報、評価情報が混在しています。これらを同じ箱に入れると、検索や回答の便利さより先に権限事故のリスクが上がります。
| 棚卸し項目 | 確認すること | 判断の使い道 |
|---|---|---|
| 文書所有者 | 更新責任者が誰か | 古い回答を防ぐ |
| 機密区分 | 誰が閲覧してよいか | 権限設計の前提にする |
| 更新頻度 | どのくらい内容が変わるか | 同期や再取り込みの頻度を決める |
| 利用場面 | 何の質問に答える文書か | 対象外文書を減らす |
| 削除条件 | いつ外すべきか | 退職者、終了案件、旧規程に対応する |
この棚卸しをせずに接続すると、AIは正しい文書だけでなく古い文書や閲覧範囲の狭い文書も拾います。社内データ活用は、投入量よりも分類の品質で決まります。
権限と保存期間を同じ表で管理する
社内データを扱うとき、権限と保存期間を別々に考えると運用が崩れます。閲覧できる人が変わる文書、契約終了後に参照すべきでない文書、古い規程として残す必要がある文書は、それぞれ扱いが違います。AI側の検索対象から外す条件を、文書管理のルールと揃える必要があります。
| 文書タイプ | 権限の考え方 | 保存・除外の考え方 |
|---|---|---|
| 社内FAQ | 全社または部門単位 | 更新時に旧版を除外する |
| 業務マニュアル | 担当部門中心 | 改定履歴を管理する |
| 顧客別資料 | 担当者と責任者 | 契約終了や担当変更で見直す |
| 人事・評価情報 | 厳格な限定 | 原則として生成AI対象外にする |
「学習させる」という言葉だけで議論すると、この粒度が抜けます。実務では、文書ごとに誰が見てよいか、いつ外すか、回答に出典を出せるかを決めることが重要です。
法務・情シス・現場の合意点
社内データ活用を前に進めるには、法務、情シス、現場の合意点を分けておきます。法務は契約と個人情報、情シスはアクセス制御とログ、現場は利用価値と更新責任を見る。この三者が同じ言葉で話せないと、「危ないからやめる」か「便利だから進める」の二択になります。
FULLFACTでは、合意形成の資料を一枚に圧縮します。対象データ、利用目的、閲覧権限、保存期間、レビュー責任、問い合わせ窓口を同じ表で示すと、経営者も判断しやすくなります。社内データ活用は技術の説明だけでは通りません。社内で止まらないための説明設計が必要です。
社内説明では「できること」と「やらないこと」を同時に示す
社内データをChatGPTで扱う議論では、期待と不安が同時に出ます。経営者はナレッジ活用を進めたい一方で、顧客情報や未公表情報の流出を心配します。現場は便利に使いたい一方で、何を入力してよいか分かりません。この状態で技術説明だけをすると、議論は進みません。
説明資料では、できることとやらないことを同じ面に置きます。できることは、公開情報や社内FAQの参照、部門内マニュアルの検索、承認済み文書の要約です。やらないことは、要配慮個人情報の投入、未公表経営情報の外部サービス入力、権限外文書の横断検索、出典を示せない回答の業務利用です。両方を示すと、社内データ活用は漠然と危ない話ではなく、設計すれば使える業務の話になります。
よくある質問
ChatGPTに入力した社内データは必ず学習されますか?
サービスや契約条件によって扱いが異なります。入力、保存、参照、モデル学習を分けて確認する必要があります。
社内FAQを作るには何から始めるべきですか?
公開可能な社内文書と社内限定文書を分け、権限と削除ルールを先に決めるべきです。
顧客情報を要約させてもよいですか?
匿名化、マスキング、利用目的、契約条件を確認し、通常は要承認の扱いにするのが安全です。
