Модуль поиска контента, сгенерированного ИИ

Мы заметили, что студенты и преподаватели активно используют различные механизмы и инструменты для создания контента, включая инструменты ИИ.

Инструменты ИИ стали частью образовательного процесса, хотя появились они относительно недавно. Студенты и преподаватели используют их, потому что они очень эффективны, быстры и имеют доступ к значительным объемам информации. Однако существует определенный риск, связанный с использованием инструментов ИИ.

Цвета в отчете о вероятности ИИ

Цвета в отчете о вероятности ИИ

Наш отчет отслеживает как пропорцию вероятности текста, сгенерированного ИИ, так и конкретную вероятность для каждого фрагмента текста, выделяя фрагменты цветом. Каждый цвет представляет вероятность того, что текст был написан ИИ или человеком. Отчет показывает список фрагментов вместе с соответствующим коэффициентом вероятности ИИ для каждого из них.

Если текст зеленый, вероятность того, что он был написан машиной, минимальна; если красный — вероятность того, что он был написан машиной, максимальна.

Эти цвета не могут быть изменены вручную и не могут быть приняты или отклонены. Вероятность того, что текст был сгенерирован машиной, проверяется модулями и алгоритмами, представляющими наиболее передовые технологии, доступные на данный момент.

Что означает коэффициент вероятности контента, сгенерированного ИИ?

Коэффициент вероятности контента, сгенерированного ИИ, представляет собой предсказание вероятности того, что весь текст был сгенерирован ИИ или написан человеком. Этот коэффициент не является мерой соотношения текста, сгенерированного ИИ, и оригинального контента документа.
Если у автора статьи низкий коэффициент схожести, но высокий коэффициент вероятности контента ИИ, это, скорее всего, ложный ответ системы, и документ следует проанализировать более подробно

Индикатор контента ИИ


Для того чтобы в отчете отображались только фрагменты с высокой вероятностью ИИ, мы разработали дополнительный инструмент. Теперь пользователь может легко отображать только те фрагменты, которые наиболее интересны для анализа, например, те, где коэффициент вероятности ИИ превышает 60% или даже 80%. При этом используется пороговое значение для индикатора контента ИИ. После его включения система выделяет только фрагменты, превышающие пороговое значение.


Как работает обнаружение ИИ?



Модуль использует обучение с учителем, применяя несколько моделей, включая модифицированную модель BERT, чтобы предсказать, является ли контент искусственным или оригинальным. Искусственный интеллект был представлен миллионам текстов как ИИ-контента, так и оригинального, после чего он был обучен различать их. После каждого сеанса обучения используется большой набор тестовых данных, чтобы оценить, является ли новая модель улучшением или нет.

Лингвистический анализ
Поскольку контент, созданный ИИ, генерируется на основе шаблонов, неудивительно, что в нем можно заметить повторяющиеся фразы, странный синтаксис или отсутствие нюансов, характерных для человеческого письма.

Статистический анализ
Многие платформы используют статистические модели для оценки сложности текста, структуры предложений и использования лексики, чтобы определить, был ли текст написан ИИ. Тексты, созданные ИИ, часто имеют однородную структуру предложений и длину, что отличает их от человеческого письма.

Модели машинного обучения
Модели машинного обучения (например, Originality.AI) обучаются различать тексты, написанные человеком, и тексты, сгенерированные ИИ. Они используют различные особенности текста, включая упомянутые выше методы, чтобы научиться выявлять характерные признаки, указывающие на написание ИИ.

Важно помнить:

Модуль имеет точность более 94% в нахождении текста, сгенерированного GPT-3, GPT-3.5, GPT-4.о, GPT-Plus, GPT-Search и ChatGPT. Однако он не идеален, и ошибки всегда возможны.

Гораздо лучше, правильнее и безопаснее анализировать серию документов автора, чем делать выводы по одному документу.

Длина документа имеет значение — чем длиннее документ, тем точнее результат.
Рекомендуемое значение коэффициента вероятности ИИ (AIPC) — более 60%. Если AIPC выше 80%, а коэффициент схожести (SC) ниже 20%, документ следует тщательно проанализировать.