ZeroTool Workbench
ゼロ幅文字検出器
テキスト内の見えないゼロ幅文字、BOM、双方向制御文字、フォント変体セレクタ、AI 隠蔽透かし を検出し、タイプごとに選択的に削除できます。ブラウザで完全実行。
ゼロ幅文字検出器の概要
テキストには、目に見えない Unicode 文字がしばしば隠されています。ゼロ幅文字、バイトオーダーマーク、双方向制御文字、AI 隠蔽透かしなどです。これらの不可視文字はコピー&ペースト、リッチテキストエディタ、AI 生成コンテンツ、サプライチェーン攻撃から発生し、追跡が困難なバグ、監査リスク、データ漏洩の危険を引き起こすことができます。
このツールは、貼り付けたテキスト内のすべての不可視文字をリアルタイムでスキャンしハイライト表示し、タイプごとに統計を取ります。必要に応じて選択的に削除することができます。すべてを削除するか、特定のタイプ(ゼロ幅文字、双方向制御文字、タグ文字など)だけを削除できます。ワンクリックでクリーンテキストをコピーまたはダウンロードできます。
検出対象
このツールは以下の不可視 Unicode 文字カテゴリをカバーしています:
- ゼロ幅文字(Zero-Width):ZWSP(U+200B)、ZWNJ(U+200C)、ZWJ(U+200D)、Word Joiner(U+2060)
- バイトオーダーマーク(BOM):U+FEFF、クロスプラットフォームファイル転送で頻繁に発生
- 双方向制御文字(Bidi Control):LRE、RLE、PDF、LRO、RLO(U+202A-202E)、暗黙的方向マーク(U+200E、U+200F)、隔離符(U+2066-2069)、Trojan-Source 攻撃の一般的なベクトルを含む
- 軟ハイフン(Soft Hyphen):U+00AD、自動改行位置に挿入されますが実際には表示されません
- フォント変体セレクタ(Variation Selectors):U+FE00-FE0F、U+E0100-E01EF、文字形を調整しますが文字として表示されません
- タグ文字(Tag Characters):U+E0000-E007F、ChatGPT などの AI モデルが隠蔽透かしに使用する範囲
使い方
- 「コンテンツを貼り付け」ボックスにテキストを貼り付けます。
- ツールはリアルタイムでスキャンし、すべての不可視文字を色でハイライト表示します。下部にはタイプ別の数量統計が表示されます。
- 削除モードを選択します:
- すべて削除 — すべての不可視文字を削除
- ゼロ幅文字のみ削除 — ZWSP、ZWNJ、ZWJ、Word Joiner のみ削除
- 双方向制御文字のみ削除 — 双方向制御文字のみ削除
- タグ文字のみ削除 — タグ文字(AI 透かし)のみ削除
- フォント変体セレクタのみ削除 — フォント変体セレクタのみ削除
- 「クリーンテキストをコピー」または「.txt をダウンロード」をクリックして結果を取得します。
主なシナリオ
- AI 生成テキストのチェック — ChatGPT、Claude、Copilot など生成されたテキストには隠蔽透かし(タグ文字)が含まれる可能性があり、このツールで迅速に検出して削除できます。
- サプライチェーン・コードレビュー — サードパーティコードまたは依存関係を受け取る前に Trojan-Source 攻撃をスキャンします。特に双方向制御文字で偽装されたロジック反転に注意してください。
- フィッシングメール検査 — メール、インスタントメッセージから複製されたテキストにはトラッキングピクセル、形式制御文字、または悪意のある双方向文字が含まれる可能性があります。削除後はより安全です。
- コピー&ペーストのクリーンアップ — Word、Google Docs、オンライン記事からプレーンテキストエディタに貼り付けるときは、隠れた形式マークが残ることが多くあります。このツールでワンクリック清掃できます。
- テキスト漏洩調査 — タグ文字またはその他の不可視マークを使用して、機密文書を隠蔽的に追跡します。このツールは隠された メタデータラベルを識別するのに役立ちます。
クライアントサイド処理が必要な理由
隠れ文字または透かしを含むテキストをサーバーに送信して検出する場合、複数のリスクが存在します:
- プライバシー漏洩 — コード スニペット、メール内容、AI 出力がサーバーログまたは分析システムによってキャプチャされ、組織の機密性要件に違反する可能性があります。
- Trojan-Source サンプル外部送信不要 — 受け取った疑わしいコードはローカル環境を出るべきではなく、ローカル分析によってウイルスや悪意のあるサンプルの伝播リスクが回避されます。
- 完全なオフライン使用可能 — このツールは純粋なブラウザ JavaScript で実行され、ネットワーク接続またはアカウントログインは不要です。ネットワークなしの状態でも機能します。
関連ツール
より広範な Unicode 問題を処理する必要がある場合、次のツールが役立つ可能性があります:
- Unicode テキスト変換器 — UTF-8、UTF-16、Base64、16 進数などの複数の Unicode エンコード形式間で変換し、エンコーディングの問題のデバッグに適しています。
- 文字列エスケープツール — JavaScript、Python、JSON などのプログラミング言語のエスケープ文字列を生成し、特殊文字と引用符を処理します。
FAQ
不可視文字とは何を指しますか?
ゼロ幅スペース(ZWSP U+200B)、ゼロ幅非結合子(ZWNJ U+200C)、ゼロ幅結合子(ZWJ U+200D)、バイトオーダーマーク(BOM U+FEFF)、双方向制御文字(RLO U+202E、LRE U+202A など)、フォント変体セレクタ(U+FE00-FE0F など)、タグ文字(Tag characters U+E0000-E007F、ChatGPT などの AI モデルが使用)、軟ハイフン(Soft Hyphen U+00AD)が含まれます。このツールはこれらのカテゴリをすべてカバーしています。
通常のテキストに不可視文字が含まれるのはなぜですか?
一般的な原因としては、Word や Google Docs などのリッチテキストエディタからコピー&ペーストする際に残る形式制御文字、ChatGPT や Claude などの AI が生成したテキストに埋め込まれた隠蔽透かし(Tag 文字で標識)、双方向制御文字を悪用した Trojan-Source コード攻撃、メールクライアントやチャットアプリケーションの自動クリーンアップ失敗などがあります。
このツールは ChatGPT や AI の透かしを検出できますか?
できます。タグ文字の範囲 U+E0000-E007F は完全にカバーされており、これは OpenAI およびその他の AI モデルが既知の隠蔽透かし範囲です。ただし、AI 透かし技術は進化し続けているため、このツールは既に公開されている Unicode 不可視文字分類に基づいています。新しい透かし形式が発見された場合は、セキュリティ研究コミュニティの最新動向を継続的に監視することが重要です。
テキストがサーバーに送信されますか?
いいえ。すべての検出と削除はブラウザ内の JavaScript で完全に実行されます。テキストはサーバーに送信されず、デバイスから離れることはありません。ブラウザの開発者ツールのネットワークタブで確認できます。
CVE-2021-42574(Trojan-Source)との関係は何ですか?
Trojan-Source 攻撃は、双方向制御文字(特に RLO U+202E)を悪用してソースコードのロジック フローを偽装し、セキュリティ監査者が見るコードとコンパイラが実行するコードを異なるものにします。このツールはすべての双方向制御文字(U+200E、U+200F、U+202A-202E、U+2066-2069)を完全にカバーしており、このような攻撃の痕跡を識別して削除し、コードレビュープロセスを保護します。