Опечатки приносят Google $500 млн в год
Всё очень просто: так называемые тайпосквоттеры регистрируют домены с «опечатками», чтобы собирать случайный трафик, и размещают там контекстную рекламу, обычно Google AdWords. На конференции Financial Cryptography and Data Security специалисты из Гарварда обнародовали своё исследование (PDF), в котором попытались оценить объём рынка. Авторы также делают предположение, что Google оказывает техническую помощь домейнерам и делит с ними прибыль.
По их оценкам, в Сети присутствуют по меньшей мере 938 000 доменов, которые являются ошибочными вариантами написания 3264 крупнейших сайтов зоны .com (учитывались как минимум пятибуквенные). На каждый популярный сайт приходится в среднем 281 домен с опечатками. «Ошибочными» является около 1,16% всего интернета в зоне .com.
Немного о методологии исследования. Опечатки генерировались по модели Дамеро-Левенштайна, то есть каждая замена буквы, отсутствие буквы, лишняя буква или перемена букв местами считается, что новое слово находится от оригинала на дистанции в 1 шаг. Для исследования сгенерировали список доменов в двух шагах от оригиналов. Плюс были добавлены характерные сетевые опечатки (например, буквы www в начале названия каждого сайта и др.). Для 3264 крупнейших сайтов получилось 1 910 738 кандидатов. Затем была составлена случайная выборка из 2195 сайтов, которую исследователи проверили вручную, чтобы определить процент достоверности. По результатам проверки оценка количества тайпосквоттерских доменов было уменьшено до 937 918.
В рамках исследования был запущен краулер, который обошел 284 914 доменов из списка, предполагаемых как тайпосквоттерские. Оказалось, что на 80% доступных сайтов размещена контекстная реклама, а на остальных 20% стоит редирект.

