CatoクラウドのDLPについて ~OCR機能のご紹介~

2024年1月15日に、DLPの機能強化がアップデート情報としてあがりました。
具体的にはOCR機能が利用できるというものです!
今回はその新機能を詳しくご紹介します。

OCRとは

まず、OCRについてですが、OCRとは「Optical Character Recognition」の略で日本語にすると「光学文字認識」です。
印刷されたテキストや手書きの文字をカメラやスキャナ等の光学的な手段でデータとして取り込み、それを解読(文字認識)することにより、パソコン等のコンピューターが識別できる文字(テキスト)データに変換する技術です。

今回のアップデートは、この技術を利用したもので、
画像ファイル内のテキストをスキャンして分析し、個人情報や機密情報が含まれている場合はそれを保護することができるようになるという機能強化となっています。

 

条件

2024年1月時点では以下のような条件があります。
※OCR固有の条件に加え、DLP機能自体の条件も含みます。

・文字タイプ:アルファベット文字のみ(現時点では日本語が未対応です)
・画像タイプ:png, jpeg, tiff, bmp, pnm, webp, jpeg2000
・ファイルサイズ
テキストファイル:1 KB~20 MB
画像:10 KB~20 MB
TLS Inspectionがデフォルトで暗黙的にバイパスされているアプリケーションはサポートされていません。

上記条件を踏まえ、今回は”Confidential”という文字が1つ入ったJPGファイルをGmailに添付させないという動作検証を行ってみました。

実際に試してみた結果を次の項目でご説明します!

 

設定方法

CMAの設定は、こちらの記事に記載の通りに行っていきます。

CatoクラウドのDLPについて
Catoクラウドの情報漏洩対策にあたる「DLP」について紹介していきます!
Step1

今回は、カスタム定義型で”Confidential”というKeywordを指定し定義型を作成しました。
Thresholdは閾値の設定で、Keyword/Phraseで指定した文字の数量を定義します。

例えば、今回の場合「”Confidential”という文字が1つ入ったJPGファイルを、Gmailに添付させない」なのでThresholdは【1】となります。

  • Name:OCR Test “Confidential” ※任意の名前を入力
  • Description:OCR Test “Confidential” ※任意の説明を入力
  • Threshold:1
  • Keyword/Phrase:Confidential

Validate Keywordでは、対象のファイルをアップロードすることで、そのファイルが定義した定義型にマッチしているかを事前にテストすることが可能です。

“Confidential”のテキストが入ったJPGファイルをアップロードしてみると、
このように”File matched the data type”とメッセージが表示され、定義型にマッチしていることがわかりました。

試しに、”Confidensial”というスペルを一部誤ったテキストが入ったJPGファイルをアップロードしてみると、
” File didn’t match the data type”とメッセージが表示され、定義型にマッチしないことがわかります。

今回はカスタム定義型で定義型を作成していますが、もちろん事前定義型を利用することも可能です。

事前定義型の場合、ThresholdはCato社で事前に定義付けされており、Data Type Catalogから確認が可能です。
例えば、Confidential document marker[Japan] という定義型にはThresholdが【2】と定義されています。
この場合、Descriptionに記載のインスタンスのうち最低でも2つ含まれていないと、この定義型にマッチしないものと見なされます。  

右側の…からValidateに進むと、カスタム定義型と同様に事前にテストが可能ですので事前にテストすることをお勧めします!

Step2

次にProfile作成ですが、ここで”OCR Scan Enabled”にチェックを入れるだけでOCR機能を有効にできます!


Step3

作成したProfileを使って次にルールを作成していきます。
今回は以下通りの設定を行いました。

  • Name:DLPテスト Gmail(OCR) User defined ※任意のルール名を入力
  • Source:Any
  • Application:Gmail
  • Activities:Add Attchment
  • DLP Profiles:Test OCR User define OCR enable ※STEP2で作成したProfileを選択
  • Actions:Block
  • Tracking:Event

以上でCMA設定が完了しましたので、動作確認を行っていきます。

 

動作確認

実際にGmailでテストファイルの添付をしてみると・・・

Cato ClientをOFF(Disconnected状態)の場合、テストファイルは添付可能でしたが、

その後、Cato ClientをON(Connected状態)にして再度添付を試してみると、想定通りBlockされました。

さらに、OCRをOFFにしたProfileを作成して同様に試してみると、このようにテストファイルは添付ができました。
よって、きちんとOCR機能が働いていることがわかります。

試しに、ZipファイルやPass付のZipファイル、手書きや写真(粗めに撮影したもの)にて添付を試してみた結果、残念ながら添付ができてしまいました…。
よって、CatoクラウドのOCR機能は、一般的な「OCR」であり、最先端技術である「AI-OCR」ではないようです。
今後の機能拡張により、精度向上を期待したいと思います。

 

まとめ

今回はDLPの新機能についてご紹介いたしました。

今後も様々な機能強化や新機能のリリースを予定しております!
リリースされたらどう使ったらよいのか…悩まれる方も少なくはないかと思いますので、使用方法や使用感をたくさん発信していきます!

著者について

SCSKにてCatoクラウド担当しています!
■認定資格
Cisco:CCNA/CCNP
AWS:1(Cloud Practitioner)
GCP:1(Cloud Digital Leader)

廣木楓をフォローする
クラウドに強いによるエンジニアブログです。
SCSKは専門性と豊富な実績を活かしたクラウドサービス USiZE(ユーサイズ)を提供しています。
USiZEサービスサイトでは、お客様のDX推進をワンストップで支援するサービスの詳細や導入事例を紹介しています。
Cato Cloud
シェアする
タイトルとURLをコピーしました