2024年1月15日に、DLPの機能強化がアップデート情報としてあがりました。
具体的にはOCR機能が利用できるというものです!
今回はその新機能を詳しくご紹介します。
OCRとは
まず、OCRについてですが、OCRとは「Optical Character Recognition」の略で日本語にすると「光学文字認識」です。
印刷されたテキストや手書きの文字をカメラやスキャナ等の光学的な手段でデータとして取り込み、それを解読(文字認識)することにより、パソコン等のコンピューターが識別できる文字(テキスト)データに変換する技術です。
今回のアップデートは、この技術を利用したもので、
画像ファイル内のテキストをスキャンして分析し、個人情報や機密情報が含まれている場合はそれを保護することができるようになるという機能強化となっています。
条件
2024年1月時点では以下のような条件があります。
※OCR固有の条件に加え、DLP機能自体の条件も含みます。
・画像タイプ:png, jpeg, tiff, bmp, pnm, webp, jpeg2000
・ファイルサイズ
・テキストファイル:1 KB~20 MB
・画像:10 KB~20 MB
上記条件を踏まえ、今回は”Confidential”という文字が1つ入ったJPGファイルをGmailに添付させないという動作検証を行ってみました。
実際に試してみた結果を次の項目でご説明します!
設定方法
CMAの設定は、こちらの記事に記載の通りに行っていきます。
Step1
今回は、カスタム定義型で”Confidential”というKeywordを指定し定義型を作成しました。
Thresholdは閾値の設定で、Keyword/Phraseで指定した文字の数量を定義します。
例えば、今回の場合「”Confidential”という文字が1つ入ったJPGファイルを、Gmailに添付させない」なのでThresholdは【1】となります。
- Name:OCR Test “Confidential” ※任意の名前を入力
- Description:OCR Test “Confidential” ※任意の説明を入力
- Threshold:1
- Keyword/Phrase:Confidential
Validate Keywordでは、対象のファイルをアップロードすることで、そのファイルが定義した定義型にマッチしているかを事前にテストすることが可能です。
“Confidential”のテキストが入ったJPGファイルをアップロードしてみると、
このように”File matched the data type”とメッセージが表示され、定義型にマッチしていることがわかりました。
試しに、”Confidensial”というスペルを一部誤ったテキストが入ったJPGファイルをアップロードしてみると、
” File didn’t match the data type”とメッセージが表示され、定義型にマッチしないことがわかります。
今回はカスタム定義型で定義型を作成していますが、もちろん事前定義型を利用することも可能です。
事前定義型の場合、ThresholdはCato社で事前に定義付けされており、Data Type Catalogから確認が可能です。
例えば、Confidential document marker[Japan] という定義型にはThresholdが【2】と定義されています。
この場合、Descriptionに記載のインスタンスのうち最低でも2つ含まれていないと、この定義型にマッチしないものと見なされます。
右側の…からValidateに進むと、カスタム定義型と同様に事前にテストが可能ですので事前にテストすることをお勧めします!
Step2
次にProfile作成ですが、ここで”OCR Scan Enabled”にチェックを入れるだけでOCR機能を有効にできます!
Step3
作成したProfileを使って次にルールを作成していきます。
今回は以下通りの設定を行いました。
- Name:DLPテスト Gmail(OCR) User defined ※任意のルール名を入力
- Source:Any
- Application:Gmail
- Activities:Add Attchment
- DLP Profiles:Test OCR User define OCR enable ※STEP2で作成したProfileを選択
- Actions:Block
- Tracking:Event
以上でCMA設定が完了しましたので、動作確認を行っていきます。
動作確認
実際にGmailでテストファイルの添付をしてみると・・・
Cato ClientをOFF(Disconnected状態)の場合、テストファイルは添付可能でしたが、
その後、Cato ClientをON(Connected状態)にして再度添付を試してみると、想定通りBlockされました。
さらに、OCRをOFFにしたProfileを作成して同様に試してみると、このようにテストファイルは添付ができました。
よって、きちんとOCR機能が働いていることがわかります。
まとめ
今回はDLPの新機能についてご紹介いたしました。
今後も様々な機能強化や新機能のリリースを予定しております!
リリースされたらどう使ったらよいのか…悩まれる方も少なくはないかと思いますので、使用方法や使用感をたくさん発信していきます!
よって、CatoクラウドのOCR機能は、一般的な「OCR」であり、最先端技術である「AI-OCR」ではないようです。
今後の機能拡張により、精度向上を期待したいと思います。