16+

  Сайт педагога-исследователя

Ветвь-диаграмма logo Sidorov S.V. ©21:02_
06.12.2016

Игры и упражнения по педагогике онлайн

Наука и опыт – только средства, только способы собирания материалов для разума. / Михаил Ломоносов
Читать в статьях
  • Формирование у обучающихся знаний о российской правовой системе как актуальная проблема образования
  • Создание социально-психологических условий для личностного развития и социализации воспитанников
  • Матрицы примечаний

  • Скачать файлы
  • Нравственные ценности старшеклассников как предмет научного исследования
  • Структура педагогики
  • Выдающиеся педагоги. Установить соответствие


  • Библиотека сайта

    Календарь
    «  Февраль 2012  »
    ПнВтСрЧтПтСбВс
      12345
    6789101112
    13141516171819
    20212223242526
    272829
    Архив записей
    Статистика
    Онлайн всего: 38
    Гостей: 34
    Пользователей: 4
    daria, Альбина, Fotkin, Ирина7893
    Яндекс цитирования  Статистика uCozAlexa Pank - глобальный рейтинг
    Рекомендуемые браузеры: Internet Explorer, Mozilla Firefox, Opera, Safari, Chrome

    Блог


    Блог » 2012 » Февраль » 14 » Проверка текста на уникальность: шинглы, фразы и настройки

    Google+
    13:33
    Проверка текста на уникальность: шинглы, фразы и настройки
    Внизу есть ссылки на похожие материалы. Робот рекомендует ознакомиться с ними. Посмотреть

    При механической проверке текста на уникальность ключевым является вопрос: как корректно сравнить проверяемый текст с другими? Ясно, что не по буквам и не по словам – тогда абсолютно все тексты можно будет назвать плагиатом. А если по предложениям – тогда программу будет легко обмануть, слегка изменив синтаксис.
    Чтобы избежать этих двух крайностей, наиболее популярные сегодня программы проверки текстов на уникальность используют метод шинглов. С простым и наглядным описанием этого метода можно ознакомиться, например, здесь: yacopywriter.com/?p=768.
    Шингл (с англ. «чешуйка») – это «механическая» фраза: программа просто разбивает текст на кусочки, состоящие из равного количества слов. Известно также, что символы и слова, не имеющие самостоятельного значения (знаки препинания, предлоги, междометия и т.д.) не учитываются, но процедура разделения текста на шинглы в разных алгоритмах может иметь некоторые отличия.
    Размер шингла 4 означает 4 слова в шингле, 5 – 5 слов и т.д. Чем меньше размер шингла, тем «строже» проверка. Но тут надо знать меру. Минимально возможный размер шингла 3, а в русском языке полно устойчивых словосочетаний, состоящих из трёх и более слов: терминов, названий документов, различных оборотов речи. 
    Фраза – это поисковая фраза. Advego Plagiatus и Etxt Антиплагиат используют готовые поисковые системы, находя источники заимствований по поисковым фразам (примерно как это делает человек, только с нечеловеческой скоростью). И опять же: размер фразы – это количество слов в ней. Чем больше размер фразы, тем больше интернет-источников будет проверено, и тем больше времени потребуется для проверки. Принцип формирования фраз относится к секретам используемого данной программой алгоритма.
     
       
     
     
    Найдя источник по поисковой фразе, программа сравнивает с ним проверяемый текст, «накладывая» шинглы на источник (сравнивает шинглы в двух источниках). Как именно это происходит в конкретной программе – снова секрет её разработчиков. Скажу лишь, что теоретически шинглы могут накладываться не только «встык» (следуя друг за другом), но и «внахлёст». В последнем случае шинглы сдвигаются вперёд-назад относительно друг друга. Это помогает лучше определять заимствования, если, например, в тексте лишь немного изменён порядок слов или просто кое-где вставлены «свои» слова (типа: использованная методика показала высокую эффективность – использованная методика показала ОЧЕНЬ высокую эффективность).
    Теперь о рекомендуемых настройках. Специалисты Advego для своей программы советуют устанавливать настройки в зависимости от размера проверяемого текста:
    - для маленьких текстов (до 1000 символов): размер фразы 4-6, размер шингла 3-4;
    - для средних текстов (1000-2500 символов): размер фразы 5-7, размер шингла 5-8;
    - для больших текстов (свыше 2500 символов): размер фразы не менее 6-7, размер шингла 10.
    Конечно, это лишь рекомендации. В реальности настройки будут зависеть ещё и от требований того, кто принимает и оценивает вашу работу (редактора, научного руководителя и т.д.). Поэтому выскажу пару собственных наблюдений.
    1. Нигде: ни на одном сайте, блоге или форуме – я не встретил, чтобы размер шингла требовалось устанавливать меньше четырёх.
    2. Многие пользователи почти никогда не меняют однажды установленных настроек (зачастую это настройки по умолчанию).
     
    14.02.2012.
     
    __________________ 
     
    См. также:

    Возможно, Вас заинтересуют...
  • История педагогики и образования
  • Презентации по теоретической педагогике

  • __________________

    Для ссылки:
    Сидоров С.В. Проверка текста на уникальность: шинглы, фразы и настройки [Электронный ресурс] // Сидоров С.В. Сайт педагога-исследователя. – URL: http://si-sv.com/blog/2012-02-14-5 (дата обращения: 06.12.2016).

    Категория: Технологии работы преподавателя | Просмотров: 15477
    Теги: Advego Plagiatus, уникальность текста, Etxt Антиплагиат, метод шинглов, настроить проверку уникальности, поисковая фраза, шингл 

    Всего комментариев: 7
    avatar
    1
    6 Анна • 09:30, 05.08.2014
    Спасибо, что все так доходчиво объяснили. А если, например, у меня всегда в настройках стоит 4/4, мне обязательно каждый раз менять условия? И какие шингл/фраза обычно используют опытные рерайтеры и копирайтеры? И еще один вопрос: есть ли такая программа, которая отличала бы качественный рерайт со многих источников от копирайта. Просто, на Адвего могут в бан отправить, если заподозрят вместо копирайта рерайт.
    avatar
    0
    7 ssw01 • 10:54, 05.08.2014
    Анна, каждый раз менять условия не надо, если только это специально не оговаривается (например, при заказе текста). Думаю, настройки 4/4 как раз нормальные, у меня такие же.
    Насчёт определения рерайта. Новая версия Advego Plagiatus распознаёт рерайт, подробней см. здесь.
    avatar
    5 Татьяна • 23:20, 25.11.2012
    Спасибо огромное, Вы мне очень помогли =) Фраза, которая мне нужна определяется как фраза, а не 2-3 отдельных слова!!! =)
    Ответ: Не за что! Рад был помочь. Только Вы не переусердствуйте с ключевой фразой, чтобы поисковики не приняли Ваш текст за поисковый спам.
    avatar
    4 Татьяна • 22:25, 25.11.2012
    Здравствуйте. Подскажите пожалуйста, существует ли в данных программах по проверке такой параметр, как повторяемость определенной фразы. Т.е. я хочу повысить рейтинг сайта, создав статью с максимальным количеством повторений определенной фразы, при этом фраза в зависимости от контекста будет меняться(в смысле лексически). Могу ли я в этом случае увидеть количество повторений этой фразы во всей статье?
    Ответ: Татьяна, в этих программах такой возможности нет. Думаю, что Вам больше подойдёт программа для seo-анализа. Например, на сайте Адвего есть такой сервис: advego.ru/text/seo/
    Хотя смотря насколько будет изменена фраза - если полностью заменена на синонимичную (лексически, как Вы пишете), то думаю, и этот сервис не очень поможет.
    avatar
    3 Сергей Анатольевич • 00:00, 02.04.2012
    У Адвего Плагиатус есть функция "Глубокая проверка". Как по вашему опыту - что она дает?
    Ответ: К сожалению, не могу дать исчерпывающего ответа. Могу только поделиться своими наблюдениями. В прежней версии программы я, если честно, не заметил особой разницы между результатами обычной и глубокой проверки. Поэтому я даже не стал об этом писать, а скоро и вообще перестал использовать глубокую проверку. В новой версии разница более заметна. Вот три последних полученных мной результата проверок (обычная/глубокая): 97/95%, 99/98%, 96/93%.
    avatar
    2 Леха • 01:13, 13.03.2012
    3 раза прогонял текст Адвегой и кажды раз разный процент Почему? Который правельный?
    Ответ: Посмотрите результаты проверки в окне под текстом, и наверняка сами поймёте причину. В таких случаях я ориентируюсь на тот результат, в котором проверено больше url.
    avatar
    1 Алина • 01:37, 16.02.2012
    Спасибо Сергей Владимирович!!! Все стало понятно! Вы всем так быстро отвечаете?
    Ответ: Отвечаю всем. Быстро - только самым любознательным.:)

    Добавьте свой комментарий
    avatar



    Полезный ресурс:  PR-CY – анализ и продвижение сайтов
    НАВЕРХ
     
    Главная | Карта сайта | Архив | Фотоальбомы | Файлы | Афоризмы | Мобильная версия
     
    При использовании оригинальных материалов сайта ссылка на si-sv.com обязательна