Системы DLP: как это работает. Обзор DLP-систем на мировом и российском рынке

В наши дни можно часто услышать о такой технологии, как DLP-системы. Что это такое, и где это используется? Это программное обеспечение, предназначенное для предотвращения потери данных путем обнаружения возможных нарушений при их отправке и фильтрации. Кроме того, такие сервисы осуществляют мониторинг, обнаружение и блокирование при ее использовании, движении (сетевом трафике), а также хранении.

Как правило, утечка конфиденциальных данных происходит по причине работы с техникой неопытных пользователей либо является результатом злонамеренных действий. Такая информация в виде частных или корпоративных сведений, объектов интеллектуальной собственности (ИС), финансовой или медицинской информации, сведений кредитных карт и тому подобное нуждается в усиленных мерах защиты, которые могут предложить современные информационные технологии.

Термины «потеря данных» и «утечка данных» связаны между собой и часто используются как синонимы, хотя они несколько отличаются. Случаи утери информации превращаются в ее утечку тогда, когда источник, содержащий конфиденциальные сведения, пропадает и впоследствии оказывается у несанкционированной стороны. Тем не менее утечка данных возможна без их потери.

Категории DLP

Технологические средства, используемые для борьбы с утечкой данных, можно разделить на следующие категории: стандартные меры безопасности, интеллектуальные (продвинутые) меры, контроль доступа и шифрование, а также специализированные DLP-системы (что это такое - подробно описано ниже).

Стандартные меры

Такие стандартные меры безопасности, как системы обнаружения вторжений (IDS) и антивирусное программное обеспечение, представляют собой обычные доступные механизмы, которые охраняют компьютеры от аутсайдера, а также инсайдерских атак. Подключение брандмауэра, к примеру, исключает доступ к внутренней сети посторонних лиц, а система обнаружения вторжений обнаруживает попытки проникновения. Внутренние атаки возможно предотвратить путем проверки антивирусом, обнаруживающих установленных на ПК, которые отправляют конфиденциальную информацию, а также за счет использования сервисов, которые работают в архитектуре клиент-сервер без каких-либо личных или конфиденциальных данных, хранящихся на компьютере.

Дополнительные меры безопасности

Дополнительные меры безопасности используют узкоспециализированные сервисы и временные алгоритмы для обнаружения ненормального доступа к данным (т. е. к базам данных либо информационно-поисковых системам) или ненормального обмена электронной почтой. Кроме того, такие современные информационные технологии выявляют программы и запросы, поступающие с вредоносными намерениями, и осуществляют глубокие проверки компьютерных систем (например, распознавание нажатий клавиш или звуков динамика). Некоторые такие сервисы способны даже проводить мониторинг активности пользователей для обнаружения необычного доступа к данным.

Специально разработанные DLP-системы - что это такое?

Разработанные для защиты информации DLP-решения служат для обнаружения и предотвращения несанкционированных попыток копировать или передавать конфиденциальные данные (преднамеренно или непреднамеренно) без разрешения или доступа, как правило, со стороны пользователей, которые имеют право доступа к конфиденциальным данным.

Для того чтобы классифицировать определенную информацию и регулировать доступ к ней, эти системы используют такие механизмы, как точное соответствие данных, структурированная дактилоскопия, прием правил и регулярных выражений, опубликований кодовых фраз, концептуальных определений и ключевых слов. Типы и сравнение DLP-систем можно представить следующим образом.

Network DLP (также известная как анализ данных в движении или DiM)

Как правило, она представляет собой аппаратное решение либо программное обеспечение, которое устанавливается в точках сети, исходящих вблизи периметра. Она анализирует сетевой трафик для обнаружения конфиденциальных данных, отправляемых в нарушение

Endpoint DLP (данные при использовании )

Такие системы функционируют на рабочих станциях конечных пользователей или серверов в различных организациях.

Как и в других сетевых системах, конечная точка может быть обращена как к внутренним, так и к внешним связям и, следовательно, может быть использована для контроля потока информации между типами либо группами пользователей (например, «файерволы»). Они также способны осуществлять контроль за электронной почтой и обменом мгновенными сообщениями. Это происходит следующим образом - прежде, чем сообщения будут загружены на устройство, они проверяются сервисом, и при содержании в них неблагоприятного запроса они блокируются. В результате они становятся неоправленными и не подпадают под действие правил хранения данных на устройстве.

DLP-система (технология) имеет преимущество в том, что она может контролировать и управлять доступом к устройствам физического типа (к примеру, мобильные устройства с возможностями хранения данных), а также иногда получать доступ к информации до ее шифрования.

Некоторые системы, функционирующие на основе конечных точек, также могут обеспечить контроль приложений, чтобы блокировать попытки передачи конфиденциальной информации, а также обеспечить незамедлительную обратную связь с пользователем. Вместе с тем они имеют недостаток в том, что они должны быть установлены на каждой рабочей станции в сети, и не могут быть использованы на мобильных устройствах (например, на сотовых телефонах и КПК) или там, где они не могут быть практически установлены (например, на рабочей станции в интернет-кафе). Это обстоятельство необходимо учитывать, делая выбор DLP-системы для каких-либо целей.

Идентификация данных

DLP-системы включают в себя несколько методов, направленных на выявление секретной либо конфиденциальной информации. Иногда этот процесс путают с расшифровкой. Однако идентификация данных представляет собой процесс, посредством которого организации используют технологию DLP, чтобы определить, что искать (в движении, в состоянии покоя или в использовании).

Данные при этом классифицируются как структурированные или неструктурированные. Первый тип хранится в фиксированных полях внутри файла (например, в виде электронных таблиц), в то время как неструктурированный относится к свободной форме текста (в форме текстовых документов или PDF-файлов).

По оценкам специалистов, 80% всех данных - неструктурированные. Соответственно, 20% - структурированные. основывается на контент-анализе, ориентированном на структурированную информацию и контекстный анализ. Он делается по месту создания приложения или системы, в которой возникли данные. Таким образом, ответом на вопрос «DLP-системы - что это такое?» послужит определение алгоритма анализа информации.

Используемые методы

Методы описания конфиденциального содержимого на сегодняшний день многочисленны. Их можно разделить на две категории: точные и неточные.

Точные методы - это те, которые связаны с анализом контента и практически сводят к нулю ложные положительные ответы на запросы.

Все остальные являются неточными и могут включать в себя: словари, ключевые слова, регулярные выражения, расширенные регулярные выражения, мета-теги данных, байесовский анализ, статистический анализ и т. д.

Эффективность анализа напрямую зависит от его точности. DLP-система, рейтинг которой высок, имеет высокие показатели по данному параметру. Точность идентификации DLP имеет важное значение для избегания ложных срабатываний и негативных последствий. Точность может зависеть от многих факторов, некоторые из которых могут быть ситуативными или технологическими. Тестирование точности может обеспечить надежность работы DLP-системы - практически нулевое количество ложных срабатываний.

Обнаружение и предотвращение утечек информации

Иногда источник распределения данных делает конфиденциальную информацию доступной для третьих лиц. Через некоторое время часть ее, вероятнее всего, обнаружится в несанкционированном месте (например, в интернете или на ноутбуке другого пользователя). DLP-системы, цена которых предоставляется разработчиками по запросу и может составлять от нескольких десятков до нескольких тысяч рублей, должны затем исследовать, как просочились данные - от одного или нескольких третьих лиц, было ли это независимо друг от друга, не обеспечивалась ли утечка какими-то другими средствами и т. д.

Данные в покое

«Данные в состоянии покоя» относятся к старой архивной информации, хранящейся на любом из жестких дисков клиентского ПК, на удаленном файловом сервере, на диске Также это определение относится к данным, хранящимся в системе резервного копирования (на флешках или компакт-дисках). Эти сведения представляют большой интерес для предприятий и государственных учреждений просто потому, что большой объем данных содержится неиспользованным в устройствах памяти, и более вероятно, что доступ к ним может быть получен неуполномоченными лицами за пределами сети.

Сегодня часто можно услышать о такой технологии, как DLP системы. Что собой представляет такая система? Как она может быть использована? Под DLP-системами понимают программное обеспечение, предназначенное для предотвращения потери данных путем обнаружения возможных нарушений при фильтрации и отправке. Данные сервисы также осуществляют мониторинг, обнаружение и блокирование конфиденциальной информации при ее использовании, движении и хранении. Утечка конфиденциальной информации, как правило, происходит по причине работы с техникой неопытных пользователей или злонамеренных действий.

Подобная информация в виде корпоративных или частных сведений, объектов интеллектуальной собственности, медицинской и финансовой информации, сведений о кредитных картах, нуждается в особых мерах защиты, предложить которые могут современные информационные технологии. Случаи утраты информации превращаются в утечку, когда источник, содержащий конфиденциальные сведения пропадает и оказывается у несанкционированной стороны. Утечка информации возможна и без потери.

Условно технологические средства, которые используются для борьбы с утечкой информации можно разделить на следующие категории:

— стандартные меры безопасности;
— интеллектуальные (продвинутые) меры;
— контроль доступа и шифрование;
— специализированные системы DLP.

Стандартные меры

К стандартным мерам безопасности относятся межсетевые экраны, системы обнаружения вторжений (IDS), антивирусное программное обеспечение. Они охраняют компьютер от аутсайдера и инсайдерских атак. Так. Например, подключение брандмауэра исключает доступ к внутренней сети посторонних лист. Система обнаружения вторжений может обнаружить попытки проникновения. Для предотвращения внутренних атак можно использовать антивирусные программы, обнаруживающие троянских коней, установленных на ПК. Также можно использовать специализированные сервисы, работающие в архитектуре клиент-сервер без какой-либо конфиденциальной или личной информации, хранящейся на компьютере.

Дополнительные меры безопасности

В дополнительных мерах безопасности используются узкоспециализированные сервисы и временные алгоритмы, которые предназначены для обнаружения ненормального доступа к данным, а точнее говоря к базам данных и информационно-поисковым системам. Также такие средства защиты позволяют обнаружить ненормальный обмен электронной почтой. Такие современные информационные технологии выявляют запросы и программы, которые поступают с вредоносными намерениями и осуществляют глубокие проверки компьютерных системы вроде распознавания звуков динамика или нажатий клавиш. Некоторые сервисы такого рода даже способны осуществлять мониторинг активности пользователей с целью обнаружения необычного доступа к данным.

Что собой представляют специально-разработанные DLP-системы?

Решения DLP, разработанные для защиты информации, служат для обнаружения и предотвращения попыток несанкционированного копирования и передачи конфиденциальной информации без разрешения или доступа со стороны пользователей, которые имеют право доступа к конфиденциальной информации. Для того чтобы классифицировать информацию определенного типа и отрегулировать доступ к ней, в этих системах используются такие механизмы, как точное соответствие данных, статистические методы, структурированная дактилоскопия, прием регулярных выражений и правил, опубликование кодовых фраз, ключевых слов, концептуальных определений. Рассмотрим основные типы и характеристики DLP-систем.

Network DLP

Данная система, как правило, представляет собой аппаратное решение или программное обеспечение, которое устанавливается в точках сети, исходящих вблизи периметра. Такая система анализирует сетевой трафик с целью обнаружения конфиденциальной информации, отправляемой с нарушениями политики информационной безопасности.

Endpoint DLP

Системы такого типа функционируют на рабочих станциях конечных пользователей или серверах в организациях. Конечная точка, как и в других сетевых системах, может быть обращена как к внутренним, так и к внешним связям и, следовательно, может использоваться для контроля потока информации между типами и группами пользователей. Они также способны осуществлять контроль за обменом мгновенными сообщениями и электронной почтой. Происходит это следующим образом, прежде, чем данные сообщения будут загружены на устройство, они проверяются сервисом. При содержании неблагоприятного запроса сообщения будут заблокированы. Таким образом они становятся неоправленными и не попадают под действие правил хранения информации на устройстве.

Преимущество DLP системы заключается в том, что она может контролировать и управлять доступом к устройствам физического типа, а также получать доступ к информации до того, как она будет зашифрована. Некоторые системы, которые функционируют на основе конечных утечек, могут также обеспечить контроль приложений с целью блокировки попыток передачи конфиденциальной информации и обеспечения незамедлительной обратной связи с пользователем. Недостаток таких систем заключается в том, что они должны быть установлены на каждой рабочей станции в сети и не могут использоваться на мобильных устройствах вроде КПК или сотовых телефонов. Данное обстоятельство необходимо учитывать при выборе систем DLP для выполнения определенных задач.

Идентификация данных

Системы DLP содержат в себе несколько методов, направленных на выявление конфиденциальной и секретной информации. Данный процесс часто путают с процедурой расшифровки информации. Однако идентификация информации представляет собой процесс, при помощи которого организации используют технологию DLP для того, чтобы определить, что именно нужно искать. При этом данные классифицируются как структурированные или неструктурированные. Данные первого типа хранятся в фиксированных полях внутри файла, например, в виде электронных таблиц. Неструктурированные данные относятся к свободной форме текста. Если верить оценкам экспертов, то 80% всей обрабатываемой информации можно отнести к неструктурированным данным. Соответственно, только 20% от общего объема информации является структурированной. Для классификации информации используется контент-анализ, который ориентирован на структурированную информацию и контекстный анализ. Делается он по месту создания приложения или системы, в которой появилась информация. Таким образом, ответом на вопрос «что собой представляют DLP системы» может послужить определение алгоритма анализа информации.

Методы

Используемые в системах DLP методы описания конфиденциального содержимого на сегодняшний день очень многочисленны. Условно их можно поделить на две категории: точные и неточные. Точные – это методы, которые связаны с анализом контента и практически сводят к нулю все ложные положительные ответы на запросы. Остальные методы являются неточными. К ним относятся статистический анализ, байесовский анализ, мета-теги, расширенные регулярные выражения, ключевые слова, словари и т.д. Эффективность анализа данных напрямую будет зависеть от его точности. DLP система с высоким рейтингом имеет высокие показатели по данному параметру. Важное значение для избегания ложных срабатываний и других негативных последствий имеет точность идентификации DLP. Точность зависит от множества факторов, которые могут быть технологическими или ситуативными. Тестирование точности позволяет обеспечить надежность работы системы DLP.

Обнаружение утечек информации и их предотвращение

В некоторых случаях источник распределения данных делает доступной для третьей стороны конфиденциальную информацию. Часть этих данных скорее всего через некоторое время будет обнаружена в несанкционированном месте, например, на ноутбуке другого пользователя или в интернете. Системы DLP, стоимость которых предоставляется разработчиками по запросу, можно составлять от нескольких десятков до нескольких тысяч рублей. Системы DLP должны исследовать, как просочились данные от одного или от нескольких третьих лиц, осуществлялось ли это независимо, не была ли утечка информации обеспечена каким-то другими средствами.

Данные в состоянии покоя

Описание «данные в состоянии покоя» относится к старой архивной информации, которая хранится на любом из жестких дисков клиентского персонального компьютера, на удаленном файловом сервере, на диске сетевого хранилища. Это определение также относится к данным, которые хранятся в системе резервного копирования на компакт-дисках или флэшках. Такая информация предоставляет большой интерес для государственных учреждений или предприятий, поскольку большой объем данных содержится неиспользованным в устройствах памяти. В данном случае велика вероятность того, что доступ к информации будет получен неуполномоченными на то лицами за пределами сети.

Если быть достаточно последовательным в определениях, то можно сказать, что информационная безопасность началась именно с появления DLP-систем. До этого все продукты, которые занимались «информационной безопасностью», на самом деле защищали не информацию, а инфраструктуру - места хранения, передачи и обработки данных. Компьютер, приложение или канал, в которых находится, обрабатывается или передается конфиденциальная информация, защищаются этими продуктами точно так же, как и инфраструктура, в которой обращается совершенно безобидная информация. То есть именно с появлением DLP-продуктов информационные системы научились наконец-то отличать конфиденциальную информацию от неконфиденциальной. Возможно, с встраиванием DLP-технологий в информационную инфраструктуру компании смогут сильно сэкономить на защите информации - например, использовать шифрование только в тех случаях, когда хранится или передается конфиденциальная информация, и не шифровать информацию в других случаях.

Однако это дело будущего, а в настоящем данные технологии используются в основном для защиты информации от утечек. Технологии категоризации информации составляют ядро DLP-систем. Каждый производитель считает свои методы детектирования конфиденциальной информации уникальными, защищает их патентами и придумывает для них специальные торговые марки. Ведь остальные, отличные от этих технологий, элементы архитектуры (перехватчики протоколов, парсеры форматов, управление инцидентами и хранилища данных) у большинства производителей идентичны, а у крупных компаний даже интегрированы с другими продуктами безопасности информационной инфраструктуры. В основном для категоризации данных в продуктах по защите корпоративной информации от утечек используются две основных группы технологий - лингвистический (морфологический, семантический) анализ и статистические методы (Digital Fingerprints, Document DNA, антиплагиат). Каждая технология имеет свои сильные и слабые стороны, которые определяют область их применения.

Лингвистический анализ

Использование стоп-слов («секретно», «конфиденциально» и тому подобных) для блокировки исходящих электронных сообщений в почтовых серверах можно считать прародителем современных DLPсистем. Конечно, от злоумышленников это не защищает - удалить стоп-слово, чаще всего вынесенное в отдельный гриф документа, не составляет труда, при этом смысл текста нисколько не изменится.

Толчок в разработке лингвистических технологий был сделан в начале этого века создателями email-фильтров. Прежде всего, для защиты электронной почты от спама. Это сейчас в антиспамовских технологиях преобладают репутационные методы, а в начале века шла настоящая лингвистическая война между снарядом и броней - спамерами и антиспамерами. Помните простейшие методы для обмана фильтров, базирующихся на стоп-словах? Замена букв на похожие буквы из других кодировок или цифры, транслит, случайным образом расставленные пробелы, подчеркивания или переходы строк в тексте. Антиспамеры довольно быстро научились бороться с такими хитростями, но тогда появился графический спам и прочие хитрые разновидности нежелательной корреспонденции.

Однако использовать антиспамерские технологии в DLP-продуктах без серьезной доработки невозможно. Ведь для борьбы со спамом достаточно делить информационный поток на две категории: спам и не спам. Метод Байеса, который используется при детектировании спама, дает только бинарный результат: «да» или «нет». Для защиты корпоративных данных от утечек этого недостаточно - нельзя просто делить информацию на конфиденциальную и неконфиденциальную. Нужно уметь классифицировать информацию по функциональной принадлежности (финансовая, производственная, технологическая, коммерческая, маркетинговая), а внутри классов - категоризировать ее по уровню доступа (для свободного распространения, для ограниченного доступа, для служебного использования, секретная, совершенно секретная и так далее).

Большинство современных систем лингвистического анализа используют не только контекстный анализ (то есть в каком контексте, в сочетании с какими другими словами используется конкретный термин), но и семантический анализ текста. Эти технологии работают тем эффективнее, чем больше анализируемый фрагмент. На большом фрагменте текста точнее проводится анализ, с большей вероятностью определяется категория и класс документа. При анализе же коротких сообщений (SMS, интернет-пейджеры) ничего лучшего, чем стоп-слова, до сих пор не придумано. Автор столкнулся с такой задачей осенью 2008 года, когда с рабочих мест многих банков через мессенджеры пошли в Сеть тысячи сообщений типа «нас сокращают», «отберут лицензию», «отток вкладчиков», которые нужно было немедленно заблокировать у своих клиентов.

Достоинства технологии

Достоинства лингвистических технологий в том, что они работают напрямую с содержанием документов, то есть им не важно, где и как был создан документ, какой на нем гриф и как называется файл - документы защищаются немедленно. Это важно, например, при обработке черновиков конфиденциальных документов или для защиты входящей документации. Если документы, созданные и использующиеся внутри компании, еще как-то можно специфическим образом именовать, грифовать или метить, то входящие документы могут иметь не принятые в организации грифы и метки. Черновики (если они, конечно, не создаются в системе защищенного документооборота) тоже могут уже содержать конфиденциальную информацию, но еще не содержать необходимых грифов и меток.

Еще одно достоинство лингвистических технологий - их обучаемость. Если ты хоть раз в жизни нажимал в почтовом клиенте кнопку «Не спам», то уже представляешь клиентскую часть системы обучения лингвистического движка. Замечу, что тебе совершенно не нужно быть дипломированным лингвистом и знать, что именно изменится в базе категорий - достаточно указать системе ложное срабатывание, все остальное она сделает сама.

Третьим достоинством лингвистических технологий является их масштабируемость. Скорость обработки информации пропорциональна ее количеству и абсолютно не зависит от количества категорий. До недавнего времени построение иерархической базы категорий (исторически ее называют БКФ - база контентной фильтрации, но это название уже не отражает настоящего смысла) выглядело неким шаманством профессиональных лингвистов, поэтому настройку БКФ можно было смело отнести к недостаткам. Но с выходом в 2010 сразу нескольких продуктов-«автолингвистов» построение первичной базы категорий стало предельно простым - системе указываются места, где хранятся документы определенной категории, и она сама определяет лингвистические признаки этой категории, а при ложных срабатываниях - самостоятельно обучается. Так что теперь к достоинствам лингвистических технологий добавилась простота настройки.

И еще одно достоинство лингвистических технологий, которое хочется отметить в статье - возможность детектировать в информационных потоках категории, не связанные с документами, находящимися внутри компании. Инструмент для контроля содержимого информационных потоков может определять такие категории, как противоправная деятельность (пиратство, распространение запрещенных товаров), использование инфраструктуры компании в собственных целях, нанесение вреда имиджу компании (например, распространение порочащих слухов) и так далее.

Недостатки технологий

Основным недостатком лингвистических технологий является их зависимость от языка. Невозможно использовать лингвистический движок, разработанный для одного языка, в целях анализа другого. Это было особенно заметно при выходе на российский рынок американских производителей - они были не готовы столкнуться с российским словообразованием и наличием шести кодировок. Недостаточно было перевести на русский язык категории и ключевые слова - в английском языке словообразование довольно простое, а падежи выносятся в предлоги, то есть при изменении падежа меняется предлог, а не само слово. Большинство существительных в английском языке становятся глаголами без изменений слова. И так далее. В русском все не так - один корень может породить десятки слов в разных частях речи.

В Германии американских производителей лингвистических технологий встретила другая проблема - так называемые «компаунды», составные слова. В немецком языке принято присоединять определения к главному слову, в результате чего получаются слова, иногда состоящие из десятка корней. В английском языке такого нет, там слово - последовательность букв между двумя пробелами, соответственно английский лингвистический движок оказался неспособен обработать незнакомые длинные слова.

Справедливости ради следует сказать, что сейчас эти проблемы во многом американскими производителями решены. Пришлось довольно сильно переделать (а иногда и писать заново) языковой движок, но большие рынки России и Германии наверняка того стоят. Также сложно обрабатывать лингвистическими технологиями мультиязычные тексты. Однако с двумя языками большинство движков все-таки справляются, обычно это национальный язык + английский - для большинства бизнес-задач этого вполне достаточно. Хотя автору встречались конфиденциальные тексты, содержащие, например, одновременно казахский, русский и английский, но это скорее исключение, чем правило.

Еще одним недостатком лингвистических технологий для контроля всего спектра корпоративной конфиденциальной информации является то, что не вся конфиденциальная информация находится в виде связных текстов. Хотя в базах данных информация и хранится в текстовом виде, и нет никаких проблем извлечь текст из СУБД, полученная информация чаще всего содержит имена собственные - ФИО, адреса, названия компаний, а также цифровую информацию - номера счетов, кредитных карт, их баланс и прочее. Обработка подобных данных с помощью лингвистики много пользы не принесет. То же самое можно сказать о форматах CAD/CAM, то есть чертежах, в которых зачастую содержится интеллектуальная собственность, программных кодах и медийных (видео/аудио) форматах - какие-то тексты из них можно извлечь, но их обработка также неэффективна. Еще года три назад это касалось и отсканированных текстов, но лидирующие производители DLP-систем оперативно добавили оптическое распознавание и справились с этой проблемой.

Но самым большим и наиболее часто критикуемым недостатком лингвистических технологий является все-таки вероятностный подход к категоризации. Если ты когда-нибудь читал письмо с категорией «Probably SPAM», то поймешь, о чем я. Если такое творится со спамом, где всего две категории (спам/не спам), можно себе представить, что будет, когда в систему загрузят несколько десятков категорий и классов конфиденциальности. Хотя обучением системы можно достигнуть 92-95% точности, для большинства пользователей это означает, что каждое десятое или двадцатое перемещение информации будет ошибочно причислено не к тому классу со всеми вытекающими для бизнеса последствиями (утечка или прерывание легитимного процесса).

Обычно не принято относить к недостаткам сложность разработки технологии, но не упомянуть о ней нельзя. Разработка серьезного лингвистического движка с категоризацией текстов более чем по двум категориям - наукоемкий и довольно сложный технологически процесс. Прикладная лингвистика - быстро развивающаяся наука, получившая сильный толчок в развитии с распространением интернет-поиска, но сегодня на рынке присутствуют единицы работоспособных движков категоризации: для русского языка их всего два, а для некоторых языков их просто еще не разработали. Поэтому на DLP-рынке существует лишь пара компаний, которые способны в полной мере категоризировать информацию «на лету». Можно предположить, что когда рынок DLP увеличится до многомиллиардных размеров, на него с легкостью выйдет Google. С собственным лингвистическим движком, оттестированным на триллионах поисковых запросов по тысячам категорий, ему не составит труда сразу отхватить серьезный кусок этого рынка.

Статистические методы

Задача компьютерного поиска значимых цитат (почему именно «значимых» - немного позже) заинтересовала лингвистов еще в 70-х годах прошлого века, если не раньше. Текст разбивался на куски определенного размера, с каждого из которых снимался хеш. Если некоторая последовательность хешей встречалась в двух текстах одновременно, то с большой вероятностью тексты в этих областях совпадали.

Побочным продуктом исследований в этой области является, например, «альтернативная хронология» Анатолия Фоменко, уважаемого ученого, который занимался «корреляциями текстов» и однажды сравнил русские летописи разных исторических периодов. Удивившись, насколько совпадают летописи разных веков (более чем на 60%), в конце 70-х он выдвинул теорию, что наша хронология на несколько веков короче. Поэтому, когда какая-то выходящая на рынок DLP-компания предлагает «революционную технологию поиска цитат», можно с большой вероятностью утверждать, что ничего, кроме новой торговой марки, компания не создала.

Статистические технологии относятся к текстам не как к связной последовательности слов, а как к произвольной последовательности символов, поэтому одинаково хорошо работают с текстами на любых языках. Поскольку любой цифровой объект - хоть картинка, хоть программа - тоже последовательность символов, то те же методы могут применяться для анализа не только текстовой информации, но и любых цифровых объектов. И если совпадают хеши в двух аудиофайлах - наверняка в одном из них содержится цитата из другого, поэтому статистические методы являются эффективными средствами защиты от утечки аудио и видео, активно применяющиеся в музыкальных студиях и кинокомпаниях.

Самое время вернуться к понятию «значимая цитата». Ключевой характеристикой сложного хеша, снимаемого с защищаемого объекта (который в разных продуктах называется то Digital Fingerprint, то Document DNA), является шаг, с которым снимается хеш. Как можно понять из описания, такой «отпечаток» является уникальной характеристикой объекта и при этом имеет свой размер. Это важно, поскольку если снять отпечатки с миллионов документов (а это объем хранилища среднего банка), то для хранения всех отпечатков понадобится достаточное количество дискового пространства. От шага хеша зависит размер такого отпечатка - чем меньше шаг, тем больше отпечаток. Если снимать хеш с шагом в один символ, то размер отпечатка превысит размер самого образца. Если для уменьшения «веса» отпечатка увеличить шаг (например, 10 000 символов), то вместе с этим увеличивается вероятность того, что документ, содержащий цитату из образца длиной в 9 900 символов, будет конфиденциальным, но при этом проскочит незаметно.

С другой стороны, если для увеличения точности детекта брать очень мелкий шаг, несколько символов, то можно увеличить количество ложных срабатываний до неприемлемой величины. В терминах текста это означает, что не стоит снимать хеш с каждой буквы - все слова состоят из букв, и система будет принимать наличие букв в тексте за содержание цитаты из текста-образца. Обычно производители сами рекомендуют некоторый оптимальный шаг снятия хешей, чтобы размер цитаты был достаточный и при этом вес самого отпечатка был небольшой - от 3% (текст) до 15% (сжатое видео). В некоторых продуктах производители позволяют менять размер значимости цитаты, то есть увеличивать или уменьшать шаг хеша.

Достоинства технологии

Как можно понять из описания, для детектирования цитаты нужен объект-образец. И статистические методы могут с хорошей точностью (до 100%) сказать, есть в проверяемом файле значимая цитата из образца или нет. То есть система не берет на себя ответственность за категоризацию документов - такая работа полностью лежит на совести того, кто категоризировал файлы перед снятием отпечатков. Это сильно облегчает защиту информации в случае, если на предприятии в некотором месте (местах) хранятся нечасто изменяющиеся и уже категоризированные файлы. Тогда достаточно с каждого из этих файлов снять отпечаток, и система будет, в соответствии с настройками, блокировать пересылку или копирование файлов, содержащих значимые цитаты из образцов.

Независимость статистических методов от языка текста и нетекстовой информации - тоже неоспоримое преимущество. Они хороши при защите статических цифровых объектов любого типа - картинок, аудио/видео, баз данных. Про защиту динамических объектов я расскажу в разделе «недостатки».

Недостатки технологии

Как и в случае с лингвистикой, недостатки технологии - обратная сторона достоинств. Простота обучения системы (указал системе файл, и он уже защищен) перекладывает на пользователя ответственность за обучение системы. Если вдруг конфиденциальный файл оказался не в том месте либо не был проиндексирован по халатности или злому умыслу, то система его защищать не будет. Соответственно, компании, заботящиеся о защите конфиденциальной информации от утечки, должны предусмотреть процедуру контроля того, как индексируются DLP-системой конфиденциальные файлы.

Еще один недостаток - физический размер отпечатка. Автор неоднократно видел впечатляющие пилотные проекты на отпечатках, когда DLP-система со 100% вероятностью блокирует пересылку документов, содержащих значимые цитаты из трехсот документов-образцов. Однако через год эксплуатации системы в боевом режиме отпечаток каждого исходящего письма сравнивается уже не с тремя сотнями, а с миллионами отпечатков-образцов, что существенно замедляет работу почтовой системы, вызывая задержки в десятки минут.

Как я и обещал выше, опишу свой опыт по защите динамических объектов с помощью статистических методов. Время снятия отпечатка напрямую зависит от размера файла и его формата. Для текстового документа типа этой статьи это занимает доли секунды, для полуторачасового MP4-фильма - десятки секунд. Для редкоизменяемых файлов это не критично, но если объект меняется каждую минуту или даже секунду, то возникает проблема: после каждого изменения объекта с него нужно снять новый отпечаток… Код, над которым работает программист, еще не самая большая сложность, гораздо хуже с базами данных, используемыми в биллинге, АБС или call-центрах. Если время снятия отпечатка больше, чем время неизменности объекта, то задача решения не имеет. Это не такой уж и экзотический случай - например, отпечаток базы данных, хранящей номера телефонов клиентов федерального сотового оператора, снимается несколько дней, а меняется ежесекундно. Поэтому, когда DLP-вендор утверждает, что его продукт может защитить вашу базу данных, мысленно добавляйте слово «квазистатическую».

Единство и борьба противоположностей

Как видно из предыдущего раздела статьи, сила одной технологии проявляется там, где слаба другая. Лингвистике не нужны образцы, она категоризирует данные на лету и может защищать информацию, с которой случайно или умышленно не был снят отпечаток. Отпечаток дает лучшую точность и поэтому предпочтительнее для использования в автоматическом режиме. Лингвистика отлично работает с текстами, отпечатки - с другими форматами хранения информации.

Поэтому большинство компаний-лидеров используют в своих разработках обе технологии, при этом одна из них является основной, а другая - дополнительной. Это связано с тем, что изначально продукты компании использовали только одну технологию, в которой компания продвинулась дальше, а затем, по требованию рынка, была подключена вторая. Так, например, ранее InfoWatch использовал только лицензированную лингвистическую технологию Morph-OLogic, а Websense - технологию PreciseID, относящуюся к категории Digital Fingerprint, но сейчас компании используют оба метода. В идеале использовать две эти технологии нужно не параллельно, а последовательно. Например, отпечатки лучше справятся с определением типа документа - договор это или балансовая ведомость, например. Затем можно подключать уже лингвистическую базу, созданную специально для этой категории. Это сильно экономит вычислительные ресурсы.

За пределами статьи остались еще несколько типов технологий, используемых в DLP-продуктах. К таким относятся, например, анализатор структур, позволяющий находить в объектах формальные структуры (номера кредитных карт, паспортов, ИНН и так далее), которые невозможно детектировать ни с помощью лингвистики, ни с помощью отпечатков. Также не раскрыта тема разного типа меток - от записей в атрибутных полях файла или просто специального наименования файлов до специальных криптоконтейнеров. Последняя технология отживает свое, поскольку большинство производителей предпочитает не изобретать велосипед самостоятельно, а интегрироваться с производителями DRM-систем, такими как Oracle IRM или Microsoft RMS.

DLP-продукты - быстроразвивающаяся отрасль информационной безопасности, у некоторых производителей новые версии выходят очень часто, более одного раза в год. С нетерпением ждем появления новых технологий анализа корпоративного информационного поля для увеличения эффективности защиты конфиденциальной информации.

Для вывода с различных источников графической и видеоинформации на большой экран помогают мультимедийные проекторы. Они широко применяются не только в образовательных учреждениях, но и в сфере бизнеса. Рынок интерактивных мультимедиа-устройств огромный. Каждые технологии, которые применяют производители, имеют свои преимущества и особенности. Рассмотрим, какое цифровое оборудование предпочтительней для разных сфер применения – LCD или DLP проектор, их достоинства и недостатки.

В зависимости от выбранного проектора, качество изображения бывает различное. Полученную картинку можно оценить по основным параметрам:

  • яркость,
  • точность цветопередачи,
  • контрастность,
  • глубина цвета,
  • частота обновления,
  • равномерность освещения,
  • оптическая эффективность,
  • разрешение.

Чтобы мультимедийные изображения выглядели качественными, технологии проекторов должны обеспечивать высокий уровень основных параметров. Однако не все проекционные системы в равной степени могут обеспечить оптимальный технический уровень.

Особенности DLP технологии

Технология DLP (с английского переводится как «цифровая обработка света») – самое перспективное техническое решение, основу которого составляет изобретение американского ученого Л. Хорнбека, цифровое микрозеркальное устройство .

Матрица устройства состоит из нескольких тысяч зеркал, имеющих размеры не более 16 микрон. Одна деталь соответствует 1 пикселю и изготавливается из сплава алюминия. Благодаря особенности зеркальной поверхности, материал обладает высокой отражающей способностью. Элементы микрозеркал с помощью оси крепятся к скобе. Она присоединяется к основанию матрицы специальной системой высокоподвижных пластин. Таким образом, зеркала располагаются поверх интегральной схемы .

Под микрозеркалами в 2-х противоположных углах находятся электроды, которые соединяются со статической памятью Sram. За счет действия электрического поля микроскопические зеркала принимают две позиции, при этом отклоняясь четко от центральной оси вправо или влево на 10 градусов. В итоге, отражаясь от lcd-матрицы, свет фокусируется с помощью оптической системы микрозеркал и позиционируется на дисплей.

Принцип действия DLP проектора

ДЛП технология позволяет создавать цифровой DLP проектор с высокой степенью яркости. В таких цифровых приборах применяется сложная конструкция, состоящая из трех микросхем.

Принцип действия технологии:

  • белый пучок света расщепляется призмой на 3 составляющие — красного, синего и зеленого цвета;
  • световые потоки перенаправляются четко на свою отдельную поверхность чипа;
  • отраженные от зеркал, цветные лучи фокусируются на экран при помощи проекционной линзы.

Для трансляции в кинотеатрах широкоформатного изображения чаще всего применяют эти устройства.

DLP проектор использует цифровую технологию, где пиксели – это двоичные элементы, которые находятся в двух положениях: включенном или выключенном. Благодаря этому отсутствует чувствительность серого цвета к различным окружающим факторам и обеспечивается высокая степень повторяемости . За счет этой особенности градация яркости, цветовые оттенки проецируются стабильно и равномерно по всей площади.

Особенности LCD технологии

При использовании LCD-технологии, мультимедиа-проекторы оснащаются 3-мя полисиликоновыми ЖК-экранами . Каждая из панелей отвечает за свой цвет. Матрицы состоят из совокупности отдельных пикселей. Между ними размещены управляющие компоненты, регулирующие их прозрачность. Далее пучки цвета сквозь призму объединяются, и благодаря соединяющим линзам проецируются на экран монитора.

Новые 3LCD цифровые проекторы имеют улучшенные технические характеристики. Трехматричные продукты используют чипы марки Texas Instruments. Отличительные характеристики изделий 3LCD Group – за счет проецирования на дисплей трех цветов спектра, получается яркое цветовое пространство, отсутствует «эффект радуги», передача серых оттенков максимально приближена к реальности.

Проекторы, использующие цифровую LCD технологию, работают по такому принципу:

  • белый свет лампы за счет 2-х дихроичных микрозеркал расщепляется на основные цвета: зеленый, красный и синий;
  • далее каждый цвет пропускается сквозь LCD-матрицу;
  • формируется полноцветное изображение.

Сравнительная характеристика DLP или LCD проекторов

За последнее время обе технологии развивались и улучшались, поэтому различия между ними становятся все менее заметными. В таблице собраны основные плюсы и минусы двух систем.

DLP -проекторы LCD -проекторы
Преимущества высокая степень взаимозаменяемости оборудования;

оптимальная оптическая эффективность;

точность цветопередачи;

градация яркости равномерна по всей плоскости поверхности;

надежность оборудования;

возможность осуществлять 3Д-проецирование на широкоформатные экраны;

высокий коэффициент контрастности;

легкий вес оборудования;

подходят для применения в помещениях с пыльными и задымленными условиями

насыщенные цвета картинки;

незначительное потребление энергии;

высокая степень яркости

Недостатки «эффект радуги», который возникает на проецируемом дисплее необходимо периодически чистить и заменять фильтр;

меньший контраст;

видимость пикселей;

снижение качества изображения после эксплуатации;

оборудование массивнее и тяжелее

Несмотря на существование небольших недостатков, обе технологии постоянно улучшаются, а модельный ряд периодически обновляется. Производители цифровых проекторов видоизменяют устройства для улучшения качества изображений.

Заключение

Выбирая, какие цифровые устройства подойдут больше для бизнеса и удовлетворят ожидания зрителей — DLP или LCD цифровые проекторы, учитывают эксплуатационные параметры, надежность и функциональность системы.

Для воспроизведения изображения на широкоформатном экране в кинотеатре, трансляции видео и презентаций подойдет проектор с ДЛП технологией. Для домашнего просмотра также больше подойдет DLP проектор. Он отличается высокими характеристиками цветности, контраста, стабильностью изображения. Цифровые портативные DLP устройства зарекомендовали себя надежными и качественными современными проекционными приборами. Для трансляции с точной цветопередачей и для экономного использования электроэнергии выбирают LCD проекторы.

Технология DLP (Data Loss Prevention ) - технологии предотвращения утечек конфиденциальной информации из информационной системы вовне, а также технические устройства (программные или программно-аппаратные) для такого предотвращения утечек. Конкурентным преимуществом большинства систем является модуль анализа. Производители настолько выпячивают этот модуль, что часто называют по нему свои продукты, например «DLP-решение на базе меток». Поэтому пользователь выбирает решения зачастую не по производительности, масштабируемости или другим, традиционным для корпоративного рынка информационной безопасности критериям, а именно на основе используемого типа анализа документов. Очевидно, что, поскольку каждый метод имеет свои достоинства и недостатки, использование только одного метода анализа документов ставит решение в технологическую зависимость от него. Большинство производителей используют несколько методов, хотя один из них обычно является «флагманским».

Под DLP многие клиенты и производители решений иногда понимают то, что DLP не является – скажем, систему защиты и блокировки портов. Есть устойчивое мнение, что DLP – это только софт, что тоже в корне неверно. DLP – это целый комплекс организационных и технических мер. Не случайно наиболее дальновидные производители DLP стремятся выйти за рамки систем защиты от утечек в смежные области, нарастить функционал. DLP-проект – дело сложное, это очень много консалтинга, совместной работы с заказчиком, и совсем чуть-чуть собственно внедрения, адаптации системы под инфраструктуру конкретной компании.

Постепенно сложилась концепция трех стадий взаимодействия с клиентом в DLP-проекте: pre-DLP, DLP и post-DLP. На первом этапе команда вендора, интегратора и заказчика совместно разбираются с объектами защиты, выясняют, какую именно конфиденциальную информацию будет отслеживаться в компании. Это во многом консалтинговая работа. На рынке присутствуют автоматические инструменты для помощи компании в категоризации информации. Он позволяет в полуавтоматическом режиме разнести информацию по категориям. В дальнейшем, при анализе исходящего трафика, система определяет, к какой категории или категориям относится исходящий документ, сопоставляет его с уже имеющимися образцами (сравниваются векторы документов, построенные в многомерном пространстве. Измерения этого пространства - термины). Если вектор документа близок к вектору эталонного конфиденциального документа, система сообщает об этом или блокирует отправку (в зависимости от настроек). Это сложная гибридная лингвистика в действии. На этапе pre-DLP важно подготовить такую классификацию, чтобы у системы в процессе работы не возникало ни сомнений, ни ложных срабатываний.

Внедрение – это простая часть, обычно она занимает от одного до нескольких дней. По сути это просто развертывание софта на всю компанию. Если там сложная, большая разветвленная инфраструктура, это будет подольше. Стадия post-DLP предполагает работу с системой, когда инцидент уже произошел. При соблюдении в компании ряда процедур данные системы могут использоваться в качестве доказательства в суде (в случае преследования нарушителя за несоблюдение режима коммерческой тайны, например).

По подсчетам ABI Research, к концу 2014 года рынок решений Data Loss Prevention достигнет $1,7 млрд. Аналитики компании Gartner придерживаются оценки в $830 млн. По словам Натальи Касперской, генерального директора InfoWatch, российский рынок DLP-систем в 2014 году вырос на 30-35%, а весь мировой рынок составил $700 млн.

В России работает несколько компаний - производителей DLP-систем (основные - InfoWatch, «Инфосистемы Джет», Zecurion, SearchInform). По прогнозам Anti-Malware, сделанном в сентябре 2014 года, по итогам 2014 года объем российского рынка DLP-систем составит $85 – 88 млн. По внедрениям DLP-систем в России лидируют крупный бизнес (64%), госсектор (26%) и средний бизнес (10%).

1 июня 2014 г. вступил в действие новый стандарт обеспечения информационной безопасности в банках, рекомендованный им Банком России. Согласно стандарту, Банк России рекомендует российским банкам внедрять системы Data Loss Prevention (DLP), чтобы предотвратить утечку данных о клиентах. С их помощью кредитные организации смогут анализировать переписку сотрудников, а также выяснять, какими интернет-сайтами они пользуются.

Вступивший в силу 1 июня новый стандарт заменил старый, действовавший с 2010 года. В документе впервые говорится об «утечке данных» и прописаны меры для ее предотвращения. Для этого Центробанк России разрешил банкам использовать DLP (Data Loss Prevention - система для предотвращения утечек). Этот тип программного обеспечения устанавливается на компьютеры сотрудников и корпоративные серверы и позволяет отслеживать все их действия в интернете, а также переписку и обмен информацией.

Применение DLP обязывает банки архивировать электронную почту, чтобы в случае утечки информации можно было отследить ее источник. Кроме того, стандарт безопасности подразумевает применение защищенных сетевых протоколов.

Кроме того, согласно тексту внесенного в Думу документа, компании планируется наделить возможностью получать дистанционное согласие гражданина на обработку его персональных данных. В настоящее время сделать это можно только при личном присутствии человека.



В продолжение темы:
Android

Популярная социальная сеть ВКонтакте позволяет находить новых друзей и держать контакт со всеми близкими. Помимо этого, каждый пользователь может делиться собственными...