Ища имена .com, я был расстроен тем, сколько из них уже заняты, но выглядят неиспользуемыми. Может сложиться впечатление, что люди регистрируют все произносимые комбинации букв на всех основных языках, а также непроизносимые короткие. Происходит ли повсеместное доменное спекулянтство, или я просто думаю об одних и тех же именах, что и все остальные? Давайте посмотрим на данные...
?
В настоящее время зарегистрировано 137 миллионов доменных имён .com.1 Из них примерно 1/3 используются (бизнес, личные сайты, электронная почта и т.д.), ещё 1/3 кажутся неиспользуемыми, а последняя 1/3 используется для различных спекулятивных целей.

?
Как я определял эти числа
Я начал с обхода случайной выборки доменов из файла зоны верхнего уровня .com, пока не достиг 100 000 действительных доменов.
?
Для каждого домена я собрал следующее:
?
запись WHOIS
все DNS-записи для домена верхнего уровня и поддомена www
HTTP- и HTTPS-ответы (код состояния, заголовки и тело) для корневой страницы домена верхнего уровня и поддомена www
скриншоты корневой страницы, сделанные в Mozilla Firefox 64.0 на Linux
Обход занял чуть более 48 часов с одного сервера, расположенного в дата-центре в Сингапуре. Я запустил повторный обход для доменов, которые не удалось подключить по HTTP или HTTPS (на случай временных ошибок). И, наконец, для 2188 доменов, нуждающихся в категоризации, я вручную проверил те, у которых произошёл сбой, на случай тайм-аута краулера или блокировки DOM-событий JavaScript.
?
Затем я написал скрипт для помощи в категоризации сайтов на основе их скриншотов и содержимого страницы. Скрипт категорий отображал возможные категории в виде списка кнопок, с "Content" в качестве категории по умолчанию.
?
Я использовал этот скрипт для категоризации доменов в течение следующих двух дней. В некоторых случаях скриншот и содержимое были недостаточны, поэтому я вручную открывал домен в браузере для дополнительного осмотра.
?
Категории доменов
?
Эти категории развивались по мере работы. Например, я не ожидал большого количества доменов азартных игр (псевдонимов).
?
Для большинства категорий я включил случайные образцы скриншотов из этой категории, исключая повторяющиеся.
?
Content (31% или ~43 миллиона)
Content — категория любого домена с сайтом, отображающим уникальный контент. Неважно, какой это контент, главное, чтобы он был уникальным для домена и публично доступным. Если я сомневался, я по умолчанию относил домен к этой категории.
?
Нет веб-сервера (11% или ~16 миллионов)
Если я не смог подключиться или получить действительный ответ от порта 80 или 443 домена верхнего уровня или поддомена www, и у домена не было MX-записей, я относил домен к этой категории. Некоторые из таких доменов, вероятно, имеют не веб-использование, например, FTP или игровые серверы, но я ожидаю, что их доля мала. Кроме того, сервер краулинга был настроен только на IPv4, поэтому сайты с только IPv6 относятся сюда.
?
Пустые (9,2% или ~13 миллионов)
Пустой домен — это домен, у которого веб-сервер отвечает на запросы, но возвращает пустые страницы, 404 ошибки или не заполненные шаблоны (например, стандартные установки WordPress).

?
Разница между Пустым доменом и Парковочным в том, что Пустой домен, предположительно, настроен пользователем, но контент ещё не добавлен.
?
На продаже (7,1% или ~9,8 миллионов)
Многие домены выставлены на продажу, обычно инвесторами в домены, через различных брокеров и торговые площадки. Почти половина этой категории — домены, продаваемые HugeDomains, хотя на их сайте указано только ?более 200 000? доменов в продаже (что существенно меньше их ~4 миллионов доменов, если выборка репрезентативна). Я включал только домены с узнаваемых площадок или когда контактная информация не была частью рекламного объявления, так как рекламные сети и брокеры доменов часто ложно утверждают, что представляют владельца домена (все такие домены я отнёс к категории Реклама).
?
Ошибка (5,7% или ~7,9 миллионов)
Если домен возвращал любую ошибку, HTTP или внутреннюю на странице, он относился к этой категории.
?
Обратите внимание, что я мог неправильно отнести некоторые Приватные домены к Ошибкам, если они использовали базовую аутентификацию, поскольку я не различал 403 Forbidden (из-за отсутствия данных для базовой аутентификации) и другие ошибки.
?
Парковочные (4,8% или ~6,5 миллионов)
Парковочные домены — это те, которые показывают страницу регистратора или хоста с объяснением, что домен ещё не настроен. Для классификации как Парковочный, домен должен был показывать страницу без внешней рекламы. Он мог рекламировать собственные услуги, но не размещать рекламу от рекламной сети.

?
Азартные игры (3,0% или ~4 миллиона)
Все сайты этой категории на китайском языке и работают под псевдонимами, часто короткими строками из цифр или согласных (например, 17770012 или tdwhtr). Они следуют общим шаблонам и содержат похожие изображения, часто с автоматически сгенерированными логотипами. Я предполагаю, что их цель — привлечь людей, считающих эти имена удачливыми.

?
Почта (2,6% или ~3,5 миллиона)
Любые домены, не попавшие в другие категории, но имеющие MX DNS-записи (для электронной почты), я отнёс к категории Почта. Я не пытался проверять работу почтового сервера или возможность доставки. Возможно, многие из этих доменов фактически не используются для почты, но я дал им преимущество сомнения.
?
Переадресация (1,1% или ~1,6 миллиона)
Переадресации включают имиджевые домены, ведущие на страницы Facebook, альтернативные имена для бизнеса и т.д.
?
Приватные (0,64% или ~0,9 миллиона)
Приватные домены не имели доступного контента без предварительного входа в систему (или в некоторых случаях регистрации).
?
Порнография (0,59% или ~0,8 миллиона)
Подобно сайтам азартных игр, ряд порнографических сайтов работают под разными псевдонимами. Сайты преимущественно на китайском языке, а домены имеют схожие шаблоны имен. Поскольку многие сайты показывают порнографический материал напрямую (без предупреждения), я не включал их скриншоты здесь.
Автор: Кристофер Форно, сингапурская дата-компания
Next Новыйs: Владелец домена Blockchain.io защищается от Blockchain.com















