Как зайти в интернет невидимкой. Невидимый интернет

В свете тотальной слежки многие пользователи посматривают в сторону решений, позволяющих скрыть свою частную жизнь от чужих глаз. Два наиболее популярных варианта - это Tor и I2P. Tor уже не раз мелькал на страницах журнала, и с его надежностью, в принципе, все понятно - сами разработчики пишут, что стопроцентной анонимности он не дарует. А вот с I2P нам сегодня придется разобраться самостоятельно - действительно ли эта штука так надежна, как считают многие?

Немного истории

В начале 2000-х годов существовало множество P2P-сетей, практическим применением которых был файлообмен. Копирастеры приходили в ярость, поскольку в распространении файлов принимали участие все сразу. Попытки же устроить «показательную порку» индивидуумам приводили лишь к колоссальным затратам времени и средств с нулевым конечным результатом. Для тех же, кто опасался оказаться в числе «попавших под раздачу», была предложена сеть Freenet, ключевой идеей которой был обмен зашифрованными блоками данных, при этом участник не имел представления о том, что это за данные, если они не были предназначены ему самому. Хотя сеть предоставляла и другие сервисы вроде полностью анонимных форумов, фактически все сводилось к скачиванию файлов.

Задачи I2P

Основные задачи I2P следующие:

  1. Скрывать местоположение eepsite’ов.
  2. Скрывать местоположение клиентов, подключающихся к eepsite’ам, в том числе и от самих сайтов.
  3. Сделать невозможным ограничение доступа к сайтам со стороны провайдеров и/или магистральных узлов.

Со временем весь файлообмен переместился в торренты. В результате возникла идея развития Freenet’а в направлении «невидимого интернета» - анонимной сети поверх существующего интернета. Так появился I2P. Долгое время проект был интересен лишь его создателям и некоторому числу гиков. Вскоре борьба уже стала вестись за саму информацию, поскольку, с одной стороны, интернетом стало пользоваться большинство людей, а с другой стороны, интернет оказался местом никем не контролируемого обмена информацией. Стало понятно, что так долго продолжаться не может, и поднялась новая волна интереса к подобным проектам.

WARNING

Вся информация предоставлена исключительно в ознакомительных целях. Ни редакция, ни автор не несут ответственности за любой возможный вред, причиненный материалами данной статьи.

I2P и Тор

«Спусковым крючком», вызвавшим массовый интерес к «невидимому интернету», стало законодательное ограничение доступа к информационным ресурсам в ряде стран, а также разоблачения Сноудена о слежке за всеми. Разумеется, многим это не понравилось: действительно, с какой стати непонятно кто станет решать за взрослого дееспособного человека, какую информацию ему следует получать, а какую нет. Что касается слежки, то она вообще никому не приятна. Осознав это, обыватель бросился искать две магические кнопки «Обойти цензуру» и «Спрятаться от слежки». И такие «кнопки» он получил в виде специальных браузеров или плагинов к браузерам для сети Tor.
Технически грамотные люди же обратили внимание на сеть I2P в качестве альтернативы Tor’у. Поскольку ты, уважаемый читатель, относишься к технически грамотным людям (иначе зачем тебе «Хакер»?), то, прочитав данную статью, поймешь, какие задачи решает сеть I2P и каким образом она это делает.
Следует обратить внимание на главное отличие I2P от Tor: основной задачей Tor’а является сокрытие истинного IP-адреса клиента, обращающегося к серверу. По большому счету серверам нет дела до того, каким образом к ним подключаются клиенты, - скорее, Тоr является для них лишней головной болью из-за хулиганов, в случае же I2P, наоборот, владельцы серверов (eepsite’ов) размещают их анонимно, а клиенты вынуждены использовать I2P, если хотят обращаться к этим серверам. Таким образом, Тоr является сетью клиентов, а I2P - серверов. Конечно, есть и onion-сайты в Тоr, и выходные узлы в I2P, однако это скорей побочные технологии.

Myth busters

В Сети гуляет несколько популярных мифов о I2P, в которые многие верят. Мы же их развеем.

Миф 1: чем больше участников, тем быстрее работает сеть.

А на самом деле: каждый новый участник должен поддерживать свою базу данных в актуальном состоянии, поэтому сеть, а особенно floodfill’ы просто захлебнутся в потоке таких запросов. В результате часть узлов станет просто недоступной другим узлам.

Миф 2: чем больше доля транзитного трафика, тем выше анонимность.

А на самом деле: I2P оперирует отдельными пакетами, поэтому реальные тоннели поверх обычного интернета, как, например, в VPN, не строятся. Для каждого пакета выбирается подходящий способ доставки, независимо от того, свой ли это пакет или транзитный. Провайдер же видит активность участника как обмен зашифрованными пакетами с различным адресами, выбираемыми достаточно бессистемно. В этом потоке, помимо тоннельных сообщений, присутствуют в большом количестве сообщения, передаваемые напрямую. С другой стороны, узел может видеть часть транзитного трафика, если является концом тоннеля, а не промежуточным узлом, в этом случае извне транзитный тоннель выглядит точно так же, как собственный.

Миф 3: в Тоr’е применяется многослойное «луковое» шифрование, а в I2P более прогрессивное «чесночное», в котором сообщение состоит из нескольких «чесночин», предназначенных разным узлам, при этом узел может расшифровать только свою «чесночину», содержимое остальных ему неизвестно.

А на самом деле: изначально оно именно так и планировалось, однако из-за необходимости использования тоннелей парами «исходящий - входящий» пришлось шифровать весь «чеснок» целиком, а не каждую «чесночину» по отдельности. Действительно сообщение, явно именуемое «чесноком», состоит из «чесночин», но поскольку его структура становится видна только после расшифровки, то «чесночины» фактически вырождаются во фрагменты тоннельных сообщений.

Как должно выглядеть реальное «чесночное» шифрование, можно понять из механизма создания тоннелей: сообщение состоит из нескольких записей, из них зашифрованы все, кроме одной, предназначенной данному узлу; он перешифровывает сообщение своим ключом и отсылает дальше. Естественно, следующему узлу предназначается уже другая запись сообщения.

Таким образом, декларируемое «чесночное» шифрование применяется всего лишь в одном сообщении, используемом относительно редко, в основном же потоке данных используется обычное многослойное шифрование: промежуточные узлы шифруют сообщение каждый своим ключом, а владелец расшифровывает, применяя эти ключи последовательно.

Как участники I2P находят друг друга?

Начнем с того, что рассмотрим встроенные в I2P механизмы, которые позволяют участникам находить друг друга, и попробуем найти в них потенциальные уязвимости. Каждый узел I2P идентифицируется I2P-адресом, представляющим собой две пары открытых и закрытых ключей, генерируемых в момент создания узла случайным образом, без какой-либо корреляции с IP-адресом или местоположением. Центрального источника адресов нет, предполагается, что вероятность совпадения двух случайно сгенерированных адресов пренебрежимо мала. Одна пара ключей используется для асимметричного шифрования, а другая - для подписи. Владельцем узла является тот, у кого имеется файл с полным набором ключей длиной 660 байт. Этот файл располагается на компьютере владельца и по сети не передается. Два открытых ключа и 3-байтный сертификат (на настоящий момент всегда нулевой) образуют 387-байтный идентификатор узла, под которым узел становится известен в I2P. Поскольку полный 387-байтный идентификатор довольно неэффективен для сравнения, сортировки и передачи данных, то для обозначения узла используется 32-байтный SHA-256 хеш от идентификатора. Строковое Base32 представление этого хеша и является адресом в.b32.i2p-адресах. А что делать, если известен только хеш, а нужно знать публичные ключи, содержащиеся в идентификаторе, например для шифрования или проверки подписи? Для этого существует сетевая база данных (netDb) - не очень удачное название, правильнее было бы назвать базой данных о сети, но такова уже устоявшаяся терминология.



У каждого участника эта база своя, и одной из задач программы-клиента является поддержка базы в актуальном состоянии. Если узел с искомым хешем в локальной базе не найден, то следует о нем спросить другие узлы; если у запрашиваемого узла адрес присутствует в базе, то он пришлет в ответ информацию о нем, в противном случае вернет список трех других узлов, где, по его мнению, адрес может быть. То есть, чтобы узнать информацию об узле, нужно знать по крайней мере его хеш - возможность скачать список всех известных на данный момент узлов умышленно отсутствует. Также предусмотрен механизм «зондирования», при котором посылается запрос случайно сгенерированного хеша со специальным флагом, и тогда узел вернет список трех узлов, присутствующих в его базе, хеши которых наиболее «близки» к запрошенному, тем самым позволяя узнать о новых участниках.

Обманываем новичков

Наличие локальной базы данных позволяет участнику выходить в сеть немедленно, не обращаясь к серверам каталогов узлов, как это делается в Тоr’е (из-за этого китайское правительство в 2010 году смогло отключить его, блокировав доступ к каталогам). Однако у такой децентрализации есть один существенный недостаток: чтобы получать информацию о новых узлах, в локальной базе данных должны уже присутствовать какие-то узлы. Значит, при первом запуске их придется откуда-то загрузить. Этот процесс называется «посевом» (reseeding) и заключается в скачивании файлов с небольшого числа жестко прописанных в коде сайтов. Достаточно заблокировать доступ к этим сайтам, и новые узлы не смогут стартовать. Правда, в этом случае для первого запуска можно просто взять список узлов у кого-то другого. Гораздо хуже, если доступ будет не заблокирован, а перенаправлен на сайты с фальшивым списком узлов, - тем самым новый узел рискует попасть в изолированную от остальной сеть, и нет простого способа распознать эту ситуацию. К чести разработчиков, они понимают масштаб проблемы и работают над тем, чтобы распространять начальный список узлов в виде подписанного их ключом архива по различным каналам.

Невидимый интернет

Сеть I2P состоит из узлов двух видов: маршрутизаторы, имеющие помимо I2P-адресов обычные IP-адреса и видимые в обычном интернете, и узлы, находящиеся позади маршрутизаторов и собственных IP-адресов не имеющие, - они и образуют тот самый «невидимый интернет». Маршрутизаторы представлены в сетевой базе данных структурой RouterInfo, помимо полного идентификатора содержащей один или несколько внешних IP-адресов и доступных протоколов, а также список возможностей данного маршрутизатора, важнейшей из которых является floodfill. Floodfill-маршрутизаторы служат своего рода «досками объявлений», куда узлы публикуют информацию о себе и куда приходят запросы клиентов. Во избежание подделки данные подписываются ключом, входящим в адрес. Поскольку информация о маршрутизаторе меняется довольно редко, то соответствующие файлы сохраняются на диске и загружаются в память при старте. У нормально функционирующего I2P-клиента таких файлов должно быть порядка нескольких тысяч.

«Невидимый интернет» представлен структурами данных LeaseSet, содержащих полный идентификатор, дополнительный ключ шифрования и список тоннелей, ведущих к маршрутизатору с данным узлом. Хотя входящие тоннели имеются и у самих маршрутизаторов, они никогда не формируют LeaseSet’ы: к маршрутизаторам всегда следует обращаться, устанавливая с ними прямые соединения, тоннели же используются только для получения ответов на запросы. Поскольку продолжительность жизни одного тоннеля десять минут, то LeaseSet’ы также существуют недолгое время и поэтому на диске не сохраняются, а при рестарте перезапрашиваются по новой. Тоннели и ключ шифрования из LeaseSet’а являются единственным способом обращения к «невидимому» узлу, то есть, зная адрес, следует сначала запросить его LeaseSet у ближайшего к нему floodfill’а и потом отправить сообщение в один из тоннелей. Для получения ответа требуется сформировать собственный LeaseSet, который можно отправить вместе с сообщением или же опубликовать на ближайшем floodfill’е.
Невозможность установить, на каком маршрутизаторе располагается тот или иной LeaseSet, является краеугольным камнем технологии обеспечения анонимности в сети I2P. Соответственно, большинство атак злоумышленников направлены на решение противоположной задачи. С этой целью в I2P для передачи информации используется сильная криптография, скрывающая данные от особо любопытных провайдеров разных уровней, а удачно применяемые электронные подписи делают сеть устойчивой к атакам типа man-in-the-middle.



Перехватываем тоннели

Для обеспечения анонимности внутри I2P применяются тоннели, представляющие собой цепочки маршрутизаторов, через которые передаются сообщения. Тоннели бывают исходящие и входящие. Исходящие предназначены для сокрытия местоположения отправителя, а входящие - получателя. Потому LeaseSet’ы и представляют собой список входных узлов и идентификаторов входящих тоннелей, информация об исходящих тоннелях не публикуется. Местоположение второго конца тоннеля держится в секрете. Для получения ответов клиент посылает серверу собственный LeaseSet. Каким путем проложен тоннель и, соответственно, на каком узле находится его второй конец, известно только создателю тоннеля. Все промежуточные участники тоннеля знают лишь следующий узел, которому следует передать перешифрованное сообщение. Но это в теории - на практике же промежуточные узлы также знают, откуда пришло сообщение, потому что сообщения между узлами передаются по обычному интернету и узнать IP-адрес отправителя не составляет труда. Далее, при достаточном размере базы можно найти и RouterInfo. Таким образом, если промежуточный узел тоннеля принадлежит злоумышленнику, то он немедленно узнает и двух своих соседей, что компрометирует одно- или двухшаговые тоннели, поскольку позволяет отследить всю цепочку. Теоретически можно увеличить длину тоннелей вплоть до восьми узлов, практически же каждый дополнительный узел резко замедляет скорость работы и надежность, поскольку присутствие узла онлайн на все время существования тоннеля не гарантировано. Поэтому в настоящий момент в I2P используются трехшаговые тоннели. Таким образом, для успешной деанонимизации узла злоумышленнику следует узнать маршрут любого из тоннелей в любой момент времени - для этого достаточно, чтобы два узла одного тоннеля были доступны злоумышленнику. При нынешнем размере сети в несколько тысяч узлов такой сценарий вполне по силам крупным структурам. Если в деанонимизации серверов ранее описанный перехват reseeding’а мало поможет, поскольку серверы выбирают узлы входящих тоннелей сами, то для выявления клиентов, посещающих «неблагонадежные» ресурсы, данный метод идеален: все узлы, в том числе выходные, используемые клиентом для построения его исходящих тоннелей, будут априори принадлежать злоумышленнику. Тем самым сразу станет известно, откуда пришло сообщение, предназначенное какому-нибудь входящему тоннелю сервера.



Атака методом исключения

Для тех, кто не обладает достаточными ресурсами по захвату большого числа узлов, однако располагает временем и терпением, подойдет другой способ. Цель его - резкое сужение круга «подозреваемых» маршрутизаторов (при должном везении даже до одного), на которых может располагаться искомый узел. Возможность проведения такой атаки обусловлена P2P-природой сети I2P - большинство маршрутизаторов сети не находятся онлайн 24 часа в сутки, поскольку располагаются на компьютерах ее участников. С другой стороны, эксплуатируются особенности I2P:

  1. Время существования тоннеля десять минут.
  2. Узел не участвует в тоннеле дважды.
  3. Для построения тоннеля каждый раз выбирается новая последовательность узлов.

Перед началом атаки злоумышленник набирает достаточно обширную базу, предполагая, что в ней находится и маршрутизатор атакуемого узла. Далее он начинает постоянно обращаться к атакуемому узлу с запросом, предполагающим получение ответа. Это можно делать ненавязчиво, главное, чтобы запрос-ответ шли постоянно, тем самым злоумышленник определяет временные интервалы, когда атакуемый узел и, соответственно, его маршрутизатор находится онлайн. Одновременно с этим оставшиеся маршрутизаторы опрашиваются путем установления непосредственного соединения, отправки какого-нибудь запроса или создания тоннеля. Делается это массово в течение максимально короткого промежутка времени. Те маршрутизаторы, которые оказались неактивными в то время, как атакуемый узел показывает активность, выбрасываются из списка, и наоборот - выбрасываются активные, когда узел неактивен. Если же атакуемый узел активен все время, то в конце концов список будет состоять из постоянно активных маршрутизаторов. И он может оказаться достаточно большим. Вот тут на помощь злоумышленнику и приходят перечисленные выше особенности: входные маршрутизаторы тоннелей, входящих в LeaseSet атакуемого узла, заведомо не являются его маршрутизатором и могут быть немедленно исключены. LeaseSet обновляется не реже чем раз в десять минут и обычно содержит пять тоннелей. За час будут исключены 30 узлов, за сутки 720, таким образом, перебор списка в 5 тысяч узлов займет не более недели.

Определяем соседей по запаху чеснока

Для обеспечения анонимности с обеих сторон тоннели используются парами: исходящий тоннель отправителя и входящий тоннель получателя. Поскольку тоннели создаются независимо друг от друга, то выходной и входной маршрутизаторы в месте соединения тоннелей видят незашифрованные передаваемые данные. Поэтому поверх тоннельного используется дополнительный уровень шифрования - специальное «чесночное» сообщение, полностью зашифрованное и предназначенное для конечных узлов в цепочке. Проблема заключается в том, что расшифровкой таких сообщений занимается маршрутизатор узла, а не сам узел. Таким образом, ключ шифрования, присутствующий в полном идентификаторе, не используется, вместо этого в LeaseSet’е присутствует предназначенный для шифрования отдельный ключ, сгенерированный маршрутизатором, на котором располагается данный LeaseSet. При этом ключ должен быть одним и тем же для всех расположенных на маршрутизаторе узлов, даже если каждый LeaseSet использует свой собственный набор тоннелей. Иначе и нельзя, поскольку «чесночное» сообщение должно быть расшифровано до того, как станет понятно, кому предназначена та или иная «чесночина». В результате изначально здравая идея «чесночной» передачи данных обрела столь уродливую форму при передаче через пару тоннелей. Таким образом, ключ шифрования, публикуемый в LeaseSet’е, является уникальным идентификатором соответствующего маршрутизатора. Достаточно скомпрометировать любой из узлов, чтобы также скомпрометировать все остальные, в том числе и клиентские. Для проведения данной атаки злоумышленнику следует запустить один или несколько floodfill’ов, куда узлы будут публиковать свои LeaseSet’ы.

Выводы

Суммируя вышесказанное, приходим выводу: анонимность I2P в нынешнем состоянии носит лишь базовый характер, позволяя укрыться только от пассивного наблюдения, вроде сбора маркетологической информации. Безусловно, проведение данных типов атак требует серьезных ресурсов, вроде высокоскоростных серверов и специализированного софта, но если кому-то сильно понадобится, то он сможет раскрыть анонимность довольно быстро. Увеличение числа узлов в сети могло бы решить данную проблему, однако при нынешней организации сети это приведет к ее фактическому коллапсу. В то же самое время I2P прекрасно подходит для построения «неубиваемых» ресурсов, доступ к которым невозможно ограничить в принципе.

В Google и других поисковых системах можно найти только часть информации, содержащейся в Интернете. Данные, хранящиеся в так называемом «глубоком» и «темном вебе», для них закрыты. Эта огромная параллельная вселенная служит как законным, так и незаконным целям.

Поисковые системы, такие как Google и «Яндекс», являются единственными воротами в онлайн для большинства пользователей Интернета: тот, кому требуется отыскать что-либо в мировой Глобальной сети, обычно вводит свой запрос в поисковую форму одного из этих сервисов и выбирает именно ту информацию, которая появляется в результатах поиска, — причем, как правило, только сайты, находящиеся на первых страницах поисковой выдачи. Но даже если бы у путешественника по просторам Всемирной паутины хватило терпения открыть все показанные ему тысячи ссылок, он увидел бы лишь часть того, что доступно в Интернете, потому что Google и другие поисковые машины вовсе не всеведущи. Если кому-то нужно скрыть что-нибудь в Сети от поисковиков, он может с легкостью сделать это.


Тайные общества в Интернете?

Возможность прятать данные от поисковых систем используют как владельцы обычных сайтов, так и организаторы анонимных сетей, частично составляющих так называемый «темный веб» — сегменты мировой Глобальной сети, не связанные с Интернетом. Идея, которая лежит в основе анонимных пользовательских сетей, похожа на концепцию тайных обществ и масонских лож реального мира. Кстати, сама по себе она не имеет ничего общего с незаконной деятельностью. Принцип прост: тот, кто лично знаком хотя бы с одним членом ложи, может быть приглашен на общие встречи всех членов. Они проходят в общественно доступных местах, но только посвященные знают, что именно происходит, когда и где. В Интернете это выглядит так: анонимные сети используют те же технологии, что и другие онлайн-службы: веб-страницы, электронную почту, обмен файлами. В принципе, они могли бы быть доступны каждому — но лишь в том случае, если этот «каждый» использует определенное программное обеспечение и знает, что и кого ему нужно найти.

Анонимные сети зародились как ответ компьютерного сообщества на чрезмерное рвение правообладателей и властей по ограничению распространения цифрового контента и информации еще в конце 90-х годов прошлого века и с тех пор постоянно совершенствуются. После того как правоохранительные органы всего мира обратили свое внимание на файлообменные сервисы и начали преследовать их наиболее активных участников, владельцы таких ресурсов стали искать способы беспрепятственно продолжать свою деятельность и разработали скрытый аналог децентрализованных пиринговых сетей (Peer-to-Peer, P2P, «равный к равному»), таких как Napster, EDonkey или BitTorrent.

В файлообменных сетях P2P обычно существуют центральные серверы, называемые трекерами, которые позволяют всем пользователям находить друг друга и обмениваться файлами MP3, видео, программами, изображениями и любой другой информацией в цифровом виде, — естественно, не заботясь об авторских правах и других связанных с законностью деталях. В анонимных сетях таких серверов нет — вся информация хранится распределенно на компьютерах пользователей.

Дружеский обмен

В отличие от Интернета, некоторые анонимные сети доступны далеко не для всех. Их создатели ставили одну цель: избежать надзора со стороны властей, которые сами зачастую нарушают закон, следя за своими гражданами. Разработанная для этого система анонимности привлекла не только борцов за свободу информации и обмена мнениями, но и любителей различного нелегального контента и пиратских копий.

Созданные внутри Интернета скрытые сети по аналогии с P2P стали сокращенно называть F2F (Friend-to-Friend, «друг к другу»). Впервые этот термин был введен в обиход в 2000 году программистом Даниэлем Бриклином, который прославился как разработчик первой электронной таблицы для ПК. В отличие от некоторых сетей P2P, они не имеют центральных серверов, а пользователи не могут обмениваться файлами с кем угодно. Чтобы входить в контакт со своими друзьями, каждый участник сети должен знать их адреса и иметь их цифровые визитные карточки (сертификаты). У непосвященных нет возможности отслеживать обмен файлами.

Если у друзей отсутствует интересующая вас информация, то на помощь придет анонимный режим функционирования, который поддерживается большинством существующих F2F-сетей. В данном случае допускается установление соединения между незнакомыми пользователями. Адреса компьютеров и все личные данные их владельцев при этом остаются тайной.

Freenet как спасение от цензуры

Одной из наиболее популярных сетей типа F2F является Freenet (не путать с названием некоторых интернет-провайдеров). Благодаря специальному программному обеспечению она использует уже существующую инфраструктуру Всемирной паутины и обычных сетевых операторов с их доступом к Интернету — но в то же время всеми силами отгораживается от традиционной Сети.

Freenet предназначена не только для обмена информацией между отдельными людьми. Внутри этой анонимной сети существуют и классические веб-сайты, однако URL-адреса в привычном для пользователей Интернета понимании отсутствуют. Кроме того, здесь есть изолированная от Паутины система электронной почты, дискуссионные форумы (FMS и Frost) и аналог социальной сети (Sone). Вся информация, доступная во Freenet, хранится распределенно на жестких дисках компьютеров пользователей в зашифрованном виде, для доступа к ней используется сложная система маршрутизации. Все это гарантирует практически полную анонимность, но накладывает ряд ограничений. По сравнению с Интернетом сеть Free-net работает значительно медленнее. В ней пока недоступны некоторые современные технологии — например, динамическая генерация контента с использованием баз данных и скриптов, широко применяемая в Интернете.

Целью основателей проекта Freenet было создание такой глобальной сети, где все пользователи смогли бы сохранять анонимность и никому не было бы позволено решать, что приемлемо, а что нет. В этой сети поддерживается дух свободного обмена информацией и свободы слова; даже у создателей Freenet нет полного контроля над системой. В таких странах, как, например, Китай, людям особенно нужен свободный обмен информацией без страха перед репрессиями со стороны государства.

Полная анонимность во Freenet и подобных ей сетях достигается только тогда, когда пользователи вступают в контакт друг с другом абсолютно целенаправленно. Но даже в том случае, если разрешить установку соединения с незнакомыми людьми, вычислить компьютеры, обменивающиеся информацией, будет невероятно трудно. Коммуникация между двумя партнерами зашифрована и идет не напрямую. Потоки данных передаются через компьютеры других пользователей. Постороннему человеку чрезвычайно сложно проследить связи между отдельными участниками.

Сайты внутри Freenet остаются невидимыми для традиционных поисковых систем и никакой прямой связи с Глобальной сетью не имеют. Попасть на них можно только в том случае, если вы установите на свой компьютер бесплатное программное обеспечение Freenet и подключитесь к сети. Также полностью анонимными остаются личные данные их создателей и адреса компьютеров, на которых они размещаются.

С течением времени сеть Freenet развивалась и быстро росла. В настоящее время существует каталог сайтов со свободным доступом, который называется Linkageddon. В нем нет функции поиска, и пользователям Freenet приходится просматривать нерассортированный массив с помощью прокрутки, встречая при этом самые неожиданные вещи. В списке, кроме запрещенного контента, попадаются страницы, которые предлагают пиратские копии. Здесь же, рядом с ресурсами, публикующими достоверную информацию, можно обнаружить страницу какого-нибудь сумасброда, который с псевдонаучной тщательностью повторяет всевозможные ложные измышления. Не исключено, что отсутствие цензуры широко используется кем-то для расследования незаконной деятельности.

«Темный веб» без темных махинаций

Анонимные сети не обязательно должны быть площадкой для незаконной деятельности, считают Билли Хоффман и Мэтт Вуд. Оба работают в научно-исследовательском отделе ИТ-гиганта Hewlett-Packard. В 2009 году они впервые представили Veiled (англ. «скрытый») — новое программное обеспечение для организации пользовательских анонимных сетей.

«Мы убеждены, что анонимные сети могли бы распространиться гораздо более широко, если бы для пользователей не существовало барьеров в виде загрузки, установки и настройки программного обеспечения», — говорит Билли Хоффман. А если бы анонимные сети стали доступны для более широкой аудитории, сразу нашлось бы много возможностей их применения в законных целях, полагают специалисты.

Создавая Veiled, исследователи думали о том, как обезопасить от давления властей сайты, подобные WikiLeaks, публикующие конфиденциальные документы правительств. До сих пор владельцы проекта WikiLeaks используют обычные веб-серверы, которые из-за юридического или политического давления могут в один прекрасный день исчезнуть из Сети. Если бы все их материалы распространялись децентрализовано через анонимную сеть, противники WikiLeaks превратились бы в борцов с ветряными мельницами, поскольку документы, которые обращаются в анонимных сетях, хранятся не на серверах, а распределены небольшими частями среди разных пользователей. По такому принципу работает, например, упомянутая выше сеть Freenet.

Исследователи из HP хотят упростить анонимные сети и для этого используют в своей программе технологию обычного браузера. Veiled работает без загрузки и установки на таких устройствах, как iPhone, а также на компьютерах под управлением операционных систем Windows, Mac и Linux. На первый взгляд Veiled кажется не таким мощным, как зрелое и специализированное программное обеспечение для анонимных сетей, однако имеет все важнейшие функции, необходимые для анонимной сети, среди которых — шифрование всех данных, передаваемых участниками, и возможность общаться в чате. Хоффман и Вуд подготовили подробную документацию по \feiled, чтобы другие программисты могли воссоздать их замысел. Vfeiled хорош, но двое исследователей из HP никогда не станут публиковать эту программу. Причина — возможный правовой конфликт с компанией, в которой они работают. Тем не менее авторы выставили в Сети настолько подробную презентацию, что, по мнению Хоффмана, другие программисты смогут без труда разработать аналог Veiled.

«Глубокий веб»: больше, чем WWW

«Темный Интернет» также невидим для поисковых систем и их пользователей, но организован совершенно иначе, чем анонимные сети. Его формируют огромные базы данных с различной информацией и страницы обычного Интернета, в силу ряда причин недоступные для популярных поисковых систем. Пользователи могут получить доступ к ним лишь в том случае, если отправят к базе данных специальный запрос или зайдут на страницы, адреса которых им заранее известны.

Сейчас владелец каждого веб-сайта может сам определить, какая часть его контента должна попасть в индекс Google и других поисковых систем, и должна ли попасть туда вообще. Если владелец закроет доступ на свой ресурс для поисковых роботов, запретит незарегистрированным пользователям просматривать страницы или же не удосужится должным образом оптимизировать свой сервис, то его информация не появится в списках результатов поиска даже в том случае, когда на нее есть ссылки с десятков тысяч сайтов, проиндексированных поисковыми системами. При обычных обстоятельствах это гарантировало бы самое высокое место в результатах выдачи. Поисковые машины как бы слепы на один глаз — и показывают своим пользователям только часть того, что есть на просторах Интернета.

Хорошим примером «глубокого веба» являются каталоги библиотек. Хотя эти списки книг и журналов хранятся в основном на традиционных веб-серверах, доступ к ним разрешается только после регистрации, выполнить которую поисковые системы не в состоянии. Им остается лишь в некотором роде «посмотреть снаружи на запертую дверь» и идти дальше. То же самое относится к базам данных с информацией об авиарейсах, специальных медицинских материалах, различной производственной документацией, социальным сетям и т. д. Правда, Google, купив IТА Software (подразделение, разрабатывающее ПО для транспортной индустрии, ранее — независимая компания), решила хотя бы проблему с авиаперелетами: американские пользователи Google уже могут вводить поисковые запросы типа «самый дешевый рейс из Нью-Йорка в Лас-Вегас» и получать результат.

Иногда владельцы ресурсов, информация которых не должна попадать в Сеть, допускают технические ошибки, вследствие которых конфиденциальные сведения оказываются в результатах поиска (все эти данные также относятся к «глубокому вебу»). Подобный случай произошел 18 июля 2011 года, когда «Яндекс» проиндексировал часть SMS-сообщений, отправленных с сайта фирмы «Мегафон» абонентам сотового оператора. Как впоследствии пояснили специалисты «Яндекса», в разделе отправки SMS на странице «Мегафона» в момент индексации поисковой системой отсутствовал файл robots.txt, в котором содержатся команды поисковому роботу. В нем, в частности, должен быть обозначен запрет на индексацию конфиденциальных разделов сайта. Сейчас эта информация уже удалена из результатов поиска, но внимательные пользователи успели ее сохранить и выложить в файлообменные сети, где она доступна и по сей день. Однако это еще не полное погружение в «глубокий веб».

Сталкеры «глубокого веба»

Открыть доступ к недрам Интернета обещают такие поисковые системы, как CompletePlanet и Scirus. Они устроены иначе, чем Google и «Яндекс», и позволяют находить информацию в таких базах данных, перед которыми традиционные поисковые системы пасуют. Например, CompletePlanet, как утверждают ее создатели, предоставляет доступ примерно к 70 000 сложноиндексируемых баз, a Scirus поможет отыскать информацию в различных научных архивах с данными.

Их работа стала возможной благодаря передовым поисковым роботам (часть поисковой системы, ответственная за сбор информации на сайтах). Они, в частности, способны генерировать вполне осмысленные запросы к базам данных и заполнять за пользователя формы благодаря поддержке специфичных языков.

Традиционные поисковые системы тоже стремятся добраться до информации, которая находится в глубоком Интернете, что неудивительно — по оценкам экспертов, там ее содержится в тысячу раз больше, чем в поверхностном. Компания Google, например, разработала особый формат для карт сайтов, благодаря чему ее поисковые роботы посещают даже те страницы, ссылки на которые с других ресурсов отсутствуют. Разумеется, сперва такую карту должен создать владелец сайта. Постепенно поисковики будут индексировать все больше информации, находящейся в глубоком Интернете, и граница между «поверхностным» и «глубоким вебом» размоется. Но некоторая ее часть все равно останется недоступной для поиска — например, предоставляемый только по подписке платный контент.

Вор натягивает на голову чулок, медвежатник поправляет перчатки, убравший подельника заметает следы. Быть неузнанным, непойманным — только так дело считается выгоревшим. Каждый преступник непременно думает, как бы соскочить, уйти в тень. По этому принципу устроена и жизнь в подвале общего цифрового дома — Интернета. Его «жильцы» не подозревают, что под скрипучими половицами функционирует другая, тёмная Сеть. Чёрная паутина плотно опутала скрытое от посторонних пространство глубин Интернета, создав свой тайный мир. Мир не для всех.

Схематично «Всемирную паутину» принято изображать в виде айсберга, верхушка которого представляет собой привычный всем пользователям Интернет, а скрытая под водой огромная невидимая его часть — это не индексируемый поисковыми системами Глубинный Интернет (Deep Web). Как правило, на веб-страницах Глубинного Интернета размещается закрытая для посторонних глаз информация, которая носит личный, корпоративный и зачастую нелегальный характер. Различные сообщества нередко желают оставаться инкогнито, поэтому доступ к закрытым базам данных возможен только при вводе определённого поискового запроса. Средний интернет-пользователь случайным образом не сможет попасть на закрытые веб-страницы с обычного браузера, потому что информация на них охраняется специализированным программным обеспечением, шифрованным, гарантирующим анонимность пользователей.


Для общения и обменом информацией существуют свои приватные сети. Даркнет (от англ. dark — «тёмный», net — «сеть»), по сути, является закрытой полулегальной — а чаще и вовсе незаконной — сетью, функционирующей в Глубинном Интернете. Даркнет, чёрная паутина, плетётся из связанных между собой персональных компьютеров, используя при этом нестандартные порты и протоколы. В Даркнете осуществляется свободный обмен программами, музыкой и фильмами — естественно, с нарушением авторских и лицензионных прав. К тому же «тёмные сети» используются для совершения преступлений в сфере информационных технологий и для конфиденциального общения. Любой ли пользователь может стать звеном в сети Даркнет? Ответ: да, хотя без определённых компьютерных знаний, конечно же, не обойтись.



Порой, однако, «нетсталкеры», неудовлетворенные той информацией, что хранится на подключённых к Даркнету персональных компьютерах, возбуждённо прикусывают губу и идут исследовать тёмные закоулки Глубинного Интернета. Для этого пользователю необходимо подключиться к сети TOR (аббревиатура от The Onion Router — «луковый маршрутизатор»), установив на компьютер соответствующий браузер. После этого и откроется замок на двери, ведущей в тот самый тёмный, набитый самым грязным контентом подвал.

В отличие от обычного Интернета в Deep Web нет центрального сервера для запроса данных, а подключение к сети осуществляется через цепь случайно выбранных компьютеров в разных уголках мира. Следы IP-адресов при этом не сохраняются, поэтому пользователи Глубинного Интернета остаются фактически полностью анонимными.



Блуждание по просторам Глубинного Интернета осуществляется с помощью различных разделов (одним из крупных считается Onionland ), которые, в свою очередь, подразделяются на каталоги и сайты. Они, стоит сказать, находятся в постоянном движении: сайты могут исчезать, появляться вновь, а каталоги к тому же иногда меняют адреса.

Погружаясь всё больше в недра разделов Deep Web, становится ясно, что размещённая здесь информация далека от законной. Здесь вам и ссылки на продавцов оружия и наркотиков, и на мошенников, предлагающих приобрести поддельные документы или фальшивые деньги, и на снафф-видео, и на извращённую порнографию (включая детскую), перекочевавшую сюда с просторов Интернета. При желании можно заказать взлом почты бизнес-конкурента или даже купить себе раба.



Ступивший на путь знакомства с Глубинным Интернетом должен отдавать себе отчёт в том, что кажущаяся на первый взгляд анархия в разделах, — мнимая. Не стоит щёлкать по неизвестным ссылкам — а тем более оставлять где бы там ни было свои личные данные. Ушлые комбинаторы, жулики только и ждут, чтобы обогатиться виртуальной валютой, заключив сомнительные сделки, либо похитить персональную информацию. Тем, что Deep Web состоит из звеньев множества компьютеров, пользуются алчные и коварные хакеры, оставаясь при этом безнаказанными. Известны случаи, когда компьютер участника «тёмной сети» из-за многоступенчатого соединения становился причастным к преступлениям по обчистке счетов или другим незаконным деяниям, а сам пользователь попадал под арест — несмотря на то, что преднамеренно он ничего не совершал.



Как заверяют на сайте TOR, все пользователи сети остаются анонимны, не рискуя быть отслеженными: информация передаётся по запутанному многоэтапному маршруту с периодическим уничтожением всех следов. Однако не стоит заблуждаться, что занимающиеся киберпреступлениями службы не в силах разоблачить участников теневого интернет-рынка. Никто не может быть полностью уверенным, что не заключает ту или иную сделку с полицейским.



Передача купленного товара проходит с крайней осторожностью: габаритные виды оружия, к примеру, разбираются на несколько частей и высылаются в посылках вместе с чем-то неприглядным. Оплата в Deep Web осуществляется с помощью криптовалюты — биткойнов (англ. bit — единица информации «бит», coin — «монета»).



Огромную популярность некогда снискал такой онлайн-рынок, как Silk Road, который получил название «Amazon тёмного Интернета». «Шёлковый путь» предлагал покупателям разнообразный ассортимент нелегальных товаров: пиратский софт, краденые вещи, наркотические вещества и многое другое. Спецслужбы США в 2013 году взяли владельца рынка, а также нескольких дилеров и работников.



Некоторые интернет-рынки и вовсе создаются, чтобы в один прекрасный момент быть свёрнутыми — без возврата денег клиентам, разумеется. Так, в марте 2015 года, внезапно ушёл в оффлайн теневой рынок Evolution, предлагавший на продажу множество товаров и широкий спектр услуг, включая, например, компроматы. Администратор ресурса бесследно исчез, прихватив с собой около 12 миллионов долларов, принадлежавших продавцам и покупателям.



Ещё один закрывшийся рынок — Sheep Marketplace. С ресурса была выведена внушительная сумма криптовалюты — более 150 000 BTC, эквивалентная примерно 40 миллионам долларов.

В разных странах периодически в новостях передают о закрытии таких нелегальных «магазинов».



По результатам исследований представителей университета Карнеги-Меллона в прошлом году суточный объём продаж на шести крупнейших чёрных рынках превышал 650 000 долларов. 70 % всех продаж на исследованных 35 рынках составляли марихуана, экстази, кокаин и их производные.

Всё же утверждать, что в Deep Web обитают одни преступники, не совсем правильно. Так, в своё время после разгоревшегося скандала с программами АНБ по прослушке «Prism» и британской «Tempora» рядовые европейцы стали искать альтернативы, чтобы избежать интернет-слежки. Многие и открыли для себя Глубинный Интернет, который обещал полную конфиденциальность. Это касается также некоторых оппозиционных сил в странах, где тоталитарный режим ограничивает свободу слова либо вовсе запрещает открыто выражать своё мнение. На анонимных серверах Hidden Sеrvices свои блоги ведут многие диссиденты из разных государств, которые подверглись преследованию из-за выражения своих идей и жёсткой цензуры. Есть в Глубинном Интернете и свои социальные сети, в которых протестующие, недовольные государственным режимом консолидируются, договариваются о митингах, саботаже или восстаниях. Для радикальных групп же это, как ни печально, возможность втайне от спецслужб планировать террористические акты.



Deep Web — это отчасти отражение тёмной стороны в эволюции человека. Для многих пользователей, к счастью, навсегда останется тайной, что где-то за вкладками с любимыми клипами и рецептами блюд умело сокрыты такие разделы, как «услуги киллеров», «отмывание денег» или «продажа наркотиков». Открывая для себя Глубинный Интернет, пользователь словно бы впускает в свой дом незнакомца. И, к сожалению, высока вероятность, что незваный гость явился в ваш дом с коварным и недобрым планом.

Феномен Невидимого Интернета и принципы работы с ним детально описаны в лучшей, на наш взгляд, книге Криса Шермана и Гэри Прайса «Невидимый Интернет» ( Chris Sherman & Gary Price « The Invisible Web ».)
«Видимый» Интернет – это та часть ресурсов, содержимое которой может быть обнаружено с помощью поисковых машин. К Невидимому Интернету относятся ресурсы, которые существуют в Глобальной Сети, и к которым можно получить доступ, если знать, где эти ресурсы находятся. Однако с помощью поисковых машин найти содержимое ресурсов Невидимого Интернета нельзя.
По мнению разных авторов к Видимому Интернету относится порядка 20-30% содержимого Сети. Самые смелые источники называют цифру не более 50%. Таким образом, можно утверждать, что Невидимый Интернет – это основная часть ресурсов, доступных онлайн.

Причины существования Невидимого Интернета

Невидимый Интернет существует в силу целого ряда причин, среди которых – причины как технического, так и организационного характера.
Некоторые ресурсы могут быть индексированы поисковыми машинами с технической точки зрения, но те попросту пока что не успели обнаружить содержимое страницы. Некоторые виды контента не индексируются поисковыми машинами потому, что «пауки» сознательно настроены так, чтобы игнорировать те или инее ресурсы.
К другим ресурсам доступ ограничили владельцы страниц.
Некоторые страницы имеют такой формат, который пока не поддерживается поисковыми машинами.

Вот что говорят о Невидимом Интернете и причинах его существования Крис Шерман и Гэри Прайс:
«Парадокс невидимого Интернета в том, что легко понять, почему он существует, но трудно точно его определить в конкретных, специфических терминах.
Невидимый Интернет трудно точно определить и классифицировать по нескольким причинам.

1. Большинство страниц невидимого Интернета могут быть проиндексированы технически, но не индексируются, потому что поисковые системы решили их не индексировать. Это очень важный момент для невидимого Интернета – что поисковики просто решили исключить из индексации страницы определенного содержания. Мы не говорим о страницах со «взрослым» содержанием или спамерских сайтах, вовсе наоборот. Большинство «невидимых» сайтов имеют высококачественный контент. Просто эти ресурсы не могут быть найдены с помощью поисковых машин общего назначения, т.к. они были заблокированы.

Есть много причин, почему так происходит. Если поисковик изменит свою политику по отношению к страницам подобного рода, то эти страницы станут частью видимого Интернета.

2. Довольно легко классифицировать сайты как часть видимого или невидимого Интернета, если посмотреть на то, каким образом они работают. Некоторые сайты используют технологию баз данных, что действительно сложно сделать поисковой машине. Это действительно невидимый Интернет. Другие сайты, однако, используют сочетание файлов, которые содержат текст и которые содержат мультимедиа, а поэтому часть из них может быть проиндексирована, а часть – нет. Такие сайты нельзя отнести четко к видимой или к невидимой части Интернета.

3. Некоторые сайты могут быть проиндексированы поисковыми машинами, но это не делается потому, что поисковые машины считают это непрактичным – например, по причине стоимости или потому, что данные настолько короткоживущие, что индексировать их просто бессмысленно – например, прогноз погоды, точное время прибытия конкретного самолета, совершившего посадку в аэропорту и т.п.»

Мы рассмотрим каждую из основных причин существования Невидимого Интернета более подробно.

Ограничения возможностей поисковых машин.

1. Физические ограничения скорости. Поисковые машины имеют физические ограничения по скорости поиска новых страниц. Ежесекундно идет негласное соревнование: в Интернете появляются новые страницы, а поисковые машины наращивают свою мощь. Кроме добавления новых страниц, в Интернете происходят еще и исчезновение старых, а также внесение изменений в содержимое существующих, что также оттягивает на себя часть ресурсов поисковых машин. В этой постоянной гонке Интернет выигрывает у поисковых машин с большим перевесом.

2. Поиск информации – мероприятие довольно дорогостоящее. Содержание серверов, рассылка пауков по Интернету, индексация, исключение сдвоенной информации – это всё довольно дорогое удовольствие.

Понимая, что проиндексировать все документы в Интернете все равно не удастся, а затраты надо приводить в соответствие с доходами, владельцы поисковых машин вводят собственные ограничения в работе своих систем. Например, ограничивают глубину проникновения паука на сайте, общее количество страниц в индексе, пропускают старые страницы, на которые никто никогда не ходит. Или ограничивают частоту повторных посещений сайта пауком, в результате чего часть страниц устаревает.
В любом случае, когда принимается решение ввести ограничение на работу поисковой машины, это автоматически означает, что существуют страницы, которые могли бы быть проиндексированы, но проиндексированы не были.
Такое положение вещей имеет необычный побочный эффект: большие сайты могут порой проигрывать небольшим.

3. Принцип попадания страниц в индекс при помощи пауков.

Паук попадает только на те страницы, на которые есть ссылки с других страниц, либо которые внесены в очередь на индексирование вручную – путем заполнения формы «Добавить страницу» (“Add URL”). Соответственно, если на страницу никто не ссылался, и никто о ней не сообщал поисковой системе вручную, то такая страница не будет проиндексирована.
Кроме того, если даже паук регулярно посещает страницу, то он делает это с определенной периодичностью. Если в промежутке между двумя посещениями страница изменится, то это изменение некоторое время будет неизвестно поисковой системе и ее пользователям.
Таким образом, существуют две задержки по времени в индексировании страниц: когда страница создана, но еще неизвестна поисковой машине, и когда паук проиндексировал страницу, но не посетил ее повторно

4. Необычные слова на странице, интересующей пользователя.

Страница, которая нужна пользователю, может содержать слова, иные, чем пользователь обычно вводит в поисковую строку. В результате, пользователь, не обладающий достаточно высокой квалификацией в поиске информации в Интернете, не может найти нужную страницу с помощью поисковой машины.

5. Предпочтение поисковой машиной быстроты поиска, а не его глубины.

Выбор между «максимально быстро» и «максимально полно» существует в любой отрасли, связанной с получением и обработкой информации. Поисковая машина обычно сориентирована владельцами на наиболее быстрое получение результатов, пусть даже в ущерб полноте. Поэтому некоторые страницы, индексирование которых трудоемко, остаются за пределами базы данных, попадающей на сервер поисковой машины.

Хотя бывают исключения из этого правила. Существуют специализированные поисковые машины, которые ищут информацию именно глубоко, а не быстро. Но они при этом «ходят» на тематические сайты. Примером такой специализированной поисковой машины может служить, по информации Гэри Прайса Law Crawler (http://lawcrawler.lp.findlaw.com/ ) или Politicalinformation . com (http://www.politicalinformation.com ).

6. Ориентация поисковых машин на поиск текстов в разных вариантах.

Поисковые машины исторически были сориентированы на поиск текстов. Сначала – текстов, представленных в формате HTML, затем стали добавляться и другие форматы – например, Word (.doc), Adobe Acrobat (.pdf), Flash.
Однако все эти форматы все равно содержат тексты. Индексировать изображения или, например, звуковые файлы (не названия звуковых файлов, а именно сам звук), поисковые машины пока не научились.

Типы контента в Невидимом Интернете.

Разные типы контента по разным причинам могут стать частью невидимого Интернета.

1. Быстрое устаревание или изменение информации.

Некоторые виды информации устаревают или меняются столь стремительно, что пауки не в состоянии ее проиндексировать своевременно. При этом часто владельцы поисковых машин вообще не пускают пауков на такие страницы, дабы не тратить ресурсы на бесполезное занятие.
Примером такого контента может служить погода в реальном масштабе времени.

2. Страница состоит преимущественно из документов в таких форматах, которые не поддерживаются поисковыми машинами.

Например, страница содержит только изображение.

3. Содержимое страницы генерируется по запросу.

Примером такой страницы может быть расчет цены автомобиля, в зависимости от комплектации и материала отделки салона. Для получения такой страницы пользователь пошагово заполняет формы на сайте, и конечный результат каждый раз формируется заново. Содержимое такой страницы не может быть проиндексировано по той простой причине, что без запроса страницы не существует, а заполнять формы паук не умеет.

4. Содержимое баз данных.

Результат из базы данных появляется тоже только после ввода определенного запроса в форму обращения к базе данных. Паук, как и в предыдущем случае, не может ни заполнить форму запроса, ни проиндексировать содержимое самой базы данных.

5. Страница не вводилась в форму добавления сайта и при этом на нее не ведут никакие ссылки.

Паук никаким образом не может узнать о существовании подобной страницы, поэтому ее не посещает.
Такие страницы, кстати, могут представлять большой интерес для конкурентной разведки, поскольку на практике известны случаи, когда на них содержались эксклюзивные предложения для некоторых клиентов.
Мы сталкивались с ситуацией, когда компания смогла вычислить алгоритм составления адресов таких страниц конкурентном, после чего была долгое время в курсе всех его специальных предложений – до смены системного администратора конкурента и механизма формирования адресов таких страниц..



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: