13:33 Проверка текста на уникальность: шинглы, фразы и настройки |
Хотите знать об этом больше? Робот постарался подобрать для Вас материалы, близкие по теме. Посмотреть При механической проверке текста на уникальность ключевым является вопрос: как корректно сравнить проверяемый текст с другими? Ясно, что не по буквам и не по словам – тогда абсолютно все тексты можно будет назвать плагиатом. А если по предложениям – тогда программу будет легко обмануть, слегка изменив синтаксис.
Чтобы избежать этих двух крайностей, наиболее популярные сегодня программы проверки текстов на уникальность используют метод шинглов. С простым и наглядным описанием этого метода можно ознакомиться, например, здесь: yacopywriter.com/?p=768.
Шингл (с англ. «чешуйка») – это «механическая» фраза: программа просто разбивает текст на кусочки, состоящие из равного количества слов. Известно также, что символы и слова, не имеющие самостоятельного значения (знаки препинания, предлоги, междометия и т.д.) не учитываются, но процедура разделения текста на шинглы в разных алгоритмах может иметь некоторые отличия.
Размер шингла 4 означает 4 слова в шингле, 5 – 5 слов и т.д. Чем меньше размер шингла, тем «строже» проверка. Но тут надо знать меру. Минимально возможный размер шингла 3, а в русском языке полно устойчивых словосочетаний, состоящих из трёх и более слов: терминов, названий документов, различных оборотов речи.
Фраза – это поисковая фраза. Advego Plagiatus и Etxt Антиплагиат используют готовые поисковые системы, находя источники заимствований по поисковым фразам (примерно как это делает человек, только с нечеловеческой скоростью). И опять же: размер фразы – это количество слов в ней. Чем больше размер фразы, тем больше интернет-источников будет проверено, и тем больше времени потребуется для проверки. Принцип формирования фраз относится к секретам используемого данной программой алгоритма.
Найдя источник по поисковой фразе, программа сравнивает с ним проверяемый текст, «накладывая» шинглы на источник (сравнивает шинглы в двух источниках). Как именно это происходит в конкретной программе – снова секрет её разработчиков. Скажу лишь, что теоретически шинглы могут накладываться не только «встык» (следуя друг за другом), но и «внахлёст». В последнем случае шинглы сдвигаются вперёд-назад относительно друг друга. Это помогает лучше определять заимствования, если, например, в тексте лишь немного изменён порядок слов или просто кое-где вставлены «свои» слова (типа: использованная методика показала высокую эффективность – использованная методика показала ОЧЕНЬ высокую эффективность).
Теперь о рекомендуемых настройках. Специалисты Advego для своей программы советуют устанавливать настройки в зависимости от размера проверяемого текста:
- для маленьких текстов (до 1000 символов): размер фразы 4-6, размер шингла 3-4;
- для средних текстов (1000-2500 символов): размер фразы 5-7, размер шингла 5-8;
- для больших текстов (свыше 2500 символов): размер фразы не менее 6-7, размер шингла 10.
Конечно, это лишь рекомендации. В реальности настройки будут зависеть ещё и от требований того, кто принимает и оценивает вашу работу (редактора, научного руководителя и т.д.). Поэтому выскажу пару собственных наблюдений.
1. Нигде: ни на одном сайте, блоге или форуме – я не встретил, чтобы размер шингла требовалось устанавливать меньше четырёх.
2. Большинство пользователей никогда или почти никогда не меняют однажды установленных настроек (зачастую это настройки по умолчанию).
14.02.2012.
__________________
См. также:
Робот считает, что со статьёй "Проверка текста на уникальность: шинглы, фразы и настройки" тематически связаны: Проверка текста на уникальность: шинглы, фразы и настройки [Электронный ресурс] // Сидоров С.В. Сайт педагога-исследователя – URL: http://si-sv.com/blog/2012-02-14-5 (дата обращения: 27.12.2024). |
|
Всего комментариев: 7 | |
1
6
Анна
• 09:30, 05.08.2014 Ответ: Татьяна, в этих программах такой возможности нет. Думаю, что Вам больше подойдёт программа для seo-анализа. Например, на сайте Адвего есть такой сервис: advego.ru/text/seo/
Хотя смотря насколько будет изменена фраза - если полностью заменена на синонимичную (лексически, как Вы пишете), то думаю, и этот сервис не очень поможет. Ответ: К сожалению, не могу дать исчерпывающего ответа. Могу только поделиться своими наблюдениями. В прежней версии программы я, если честно, не заметил особой разницы между результатами обычной и глубокой проверки. Поэтому я даже не стал об этом писать, а скоро и вообще перестал использовать глубокую проверку. В новой версии разница более заметна. Вот три последних полученных мной результата проверок (обычная/глубокая): 97/95%, 99/98%, 96/93%.
| |