13:33
Проверка текста на уникальность: шинглы, фразы и настройки

Робот Робот подготовил для Вас подборку материалов, близких к этой теме. Посмотреть
При механической проверке текста на уникальность ключевым является вопрос: как корректно сравнить проверяемый текст с другими? Ясно, что не по буквам и не по словам – тогда абсолютно все тексты можно будет назвать плагиатом. А если по предложениям – тогда программу будет легко обмануть, слегка изменив синтаксис.
Чтобы избежать этих двух крайностей, наиболее популярные сегодня программы проверки текстов на уникальность используют метод шинглов. С простым и наглядным описанием этого метода можно ознакомиться, например, здесь: yacopywriter.com/?p=768.
Шингл (с англ. «чешуйка») – это «механическая» фраза: программа просто разбивает текст на кусочки, состоящие из равного количества слов. Известно также, что символы и слова, не имеющие самостоятельного значения (знаки препинания, предлоги, междометия и т.д.) не учитываются, но процедура разделения текста на шинглы в разных алгоритмах может иметь некоторые отличия.
Размер шингла 4 означает 4 слова в шингле, 5 – 5 слов и т.д. Чем меньше размер шингла, тем «строже» проверка. Но тут надо знать меру. Минимально возможный размер шингла 3, а в русском языке полно устойчивых словосочетаний, состоящих из трёх и более слов: терминов, названий документов, различных оборотов речи. 
Фраза – это поисковая фраза. Advego Plagiatus и Etxt Антиплагиат используют готовые поисковые системы, находя источники заимствований по поисковым фразам (примерно как это делает человек, только с нечеловеческой скоростью). И опять же: размер фразы – это количество слов в ней. Чем больше размер фразы, тем больше интернет-источников будет проверено, и тем больше времени потребуется для проверки. Принцип формирования фраз относится к секретам используемого данной программой алгоритма.
 
   
 
 
Найдя источник по поисковой фразе, программа сравнивает с ним проверяемый текст, «накладывая» шинглы на источник (сравнивает шинглы в двух источниках). Как именно это происходит в конкретной программе – снова секрет её разработчиков. Скажу лишь, что теоретически шинглы могут накладываться не только «встык» (следуя друг за другом), но и «внахлёст». В последнем случае шинглы сдвигаются вперёд-назад относительно друг друга. Это помогает лучше определять заимствования, если, например, в тексте лишь немного изменён порядок слов или просто кое-где вставлены «свои» слова (типа: использованная методика показала высокую эффективность – использованная методика показала ОЧЕНЬ высокую эффективность).
Теперь о рекомендуемых настройках. Специалисты Advego для своей программы советуют устанавливать настройки в зависимости от размера проверяемого текста:
- для маленьких текстов (до 1000 символов): размер фразы 4-6, размер шингла 3-4;
- для средних текстов (1000-2500 символов): размер фразы 5-7, размер шингла 5-8;
- для больших текстов (свыше 2500 символов): размер фразы не менее 6-7, размер шингла 10.
Конечно, это лишь рекомендации. В реальности настройки будут зависеть ещё и от требований того, кто принимает и оценивает вашу работу (редактора, научного руководителя и т.д.). Поэтому выскажу пару собственных наблюдений.
1. Нигде: ни на одном сайте, блоге или форуме – я не встретил, чтобы размер шингла требовалось устанавливать меньше четырёх.
2. Большинство пользователей никогда или почти никогда не меняют однажды установленных настроек (зачастую это настройки по умолчанию).
 
14.02.2012.
 
__________________ 
 
См. также:

Робот списокПодсказка робота: со статьёй "Проверка текста на уникальность: шинглы, фразы и настройки" тематически связаны:
Для ссылки:
Проверка текста на уникальность: шинглы, фразы и настройки [Электронный ресурс] // Сидоров С.В. Сайт педагога-исследователя – URL: http://si-sv.com/blog/2012-02-14-5 (дата обращения: 21.11.2024).
Просмотров: 36901 | Автор: : Сергей Сидоров | Рейтинг: 3.2/31
Всего комментариев: 7
avatar
1
6 Анна • 09:30, 05.08.2014
Спасибо, что все так доходчиво объяснили. А если, например, у меня всегда в настройках стоит 4/4, мне обязательно каждый раз менять условия? И какие шингл/фраза обычно используют опытные рерайтеры и копирайтеры? И еще один вопрос: есть ли такая программа, которая отличала бы качественный рерайт со многих источников от копирайта. Просто, на Адвего могут в бан отправить, если заподозрят вместо копирайта рерайт.
avatar
0
7 ssw01 • 10:54, 05.08.2014
Анна, каждый раз менять условия не надо, если только это специально не оговаривается (например, при заказе текста). Думаю, настройки 4/4 как раз нормальные, у меня такие же.
Насчёт определения рерайта. Новая версия Advego Plagiatus распознаёт рерайт, подробней см. здесь.
avatar
5 Татьяна • 23:20, 25.11.2012
Спасибо огромное, Вы мне очень помогли =) Фраза, которая мне нужна определяется как фраза, а не 2-3 отдельных слова!!! =)
Ответ: Не за что! Рад был помочь. Только Вы не переусердствуйте с ключевой фразой, чтобы поисковики не приняли Ваш текст за поисковый спам.
avatar
4 Татьяна • 22:25, 25.11.2012
Здравствуйте. Подскажите пожалуйста, существует ли в данных программах по проверке такой параметр, как повторяемость определенной фразы. Т.е. я хочу повысить рейтинг сайта, создав статью с максимальным количеством повторений определенной фразы, при этом фраза в зависимости от контекста будет меняться(в смысле лексически). Могу ли я в этом случае увидеть количество повторений этой фразы во всей статье?
Ответ: Татьяна, в этих программах такой возможности нет. Думаю, что Вам больше подойдёт программа для seo-анализа. Например, на сайте Адвего есть такой сервис: advego.ru/text/seo/
Хотя смотря насколько будет изменена фраза - если полностью заменена на синонимичную (лексически, как Вы пишете), то думаю, и этот сервис не очень поможет.
avatar
3 Сергей Анатольевич • 00:00, 02.04.2012
У Адвего Плагиатус есть функция "Глубокая проверка". Как по вашему опыту - что она дает?
Ответ: К сожалению, не могу дать исчерпывающего ответа. Могу только поделиться своими наблюдениями. В прежней версии программы я, если честно, не заметил особой разницы между результатами обычной и глубокой проверки. Поэтому я даже не стал об этом писать, а скоро и вообще перестал использовать глубокую проверку. В новой версии разница более заметна. Вот три последних полученных мной результата проверок (обычная/глубокая): 97/95%, 99/98%, 96/93%.
avatar
2 Леха • 01:13, 13.03.2012
3 раза прогонял текст Адвегой и кажды раз разный процент Почему? Который правельный?
Ответ: Посмотрите результаты проверки в окне под текстом, и наверняка сами поймёте причину. В таких случаях я ориентируюсь на тот результат, в котором проверено больше url.
avatar
1 Алина • 01:37, 16.02.2012
Спасибо Сергей Владимирович!!! Все стало понятно! Вы всем так быстро отвечаете?
Ответ: Отвечаю всем. Быстро - только самым любознательным.:)
ComForm">
avatar