Модул за търсене на съдържание, генерирано от изкуствен интелект

Забелязахме, че студентите и преподавателите активно използват различни механизми и инструменти за създаване на съдържание, включително и изкуствен интелект.
Инструментите за генериране на съдържание от ИИ станаха част от образователния процес, въпреки че се появиха съвсем наскоро. Студентите и преподавателите ги използват, защото са много ефективни, бързи и имат достъп до огромни обеми информация. Въпреки това съществува известен риск, свързан с използването им. 

Нашата компания реши да създаде модул, който да отговаря на нуждите на образователни институции, корпоративни и издателски къщи.

Образователната институция, разполагаща с ефективен инструмент за противодействие на злоупотребите, които могат да възникнат при използването на ChatGPT, Bard и други инструменти за съдържание, генерирано от изкуствен интелект, ще може по-добре да защити студентите от нарушаване на принципите на академичната почтеност и да защити стандартите за качество на образованието.


Докладът за съдържанието на текст, генериран от ИИ е поставен в интерактивния Доклад за сходство, което е много удобно за анализиране.

Удобно е също така да оценявате документа по два критерия едновременно и да оставяте коментари, свързани както с ИИ, така и с плагиатството.

Като щракнете върху Детайли в раздела за търсене на ИИ съдържание, ще можете да отворите втория доклад. 

Цветове в доклада за вероятността текстът да е генериран от ИИ

Нашият доклад проследява както цялостното съотношение на вероятността текстът на документа да е генериран от ИИ, така и вероятността всеки отделен фрагмент от текст да е създаден от ИИ, като оцветява различните фрагменти и дава информация дали са написани от ИИ или от човек. Докладът показва списък на фрагментите и коефициента на вероятност за всеки фрагмент.

Ако текстът е зелен, вероятността да е написан от ИИ е минимална, а ако е червен, вероятността да е написан от ИИ е максимална.
Тези цветове не могат да се променят ръчно, да се приемат или отхвърлят. Вероятността текстът да е написан машинно се проверява от най-добрите в момента модули и алгоритми. 

Какво означава коефициентът на вероятност на ИИ?

Коефициентът на вероятност на съдържанието на ИИ е прогноза за вероятността текстът да е генериран от ИИ или да е написан от човек. Коефициентът не е мярка за съотношението между генерирания от ИИ текст и оригиналното съдържание в документа.

Ако авторът на документа има нисък процент на заемане, но висок коефициент на ИИ, вероятно става въпрос за фалшив отговор от системата, поради което документът трябва да се анализира подробно.


Индикатор за AI съдържание
За да се виждат в доклада само фрагментите с висока вероятност за AI, създадохме допълнителен инструмент.

Потребителят вече може лесно да визуализира само тези фрагменти, които са най-важни за анализа, например тези, където коефициентът на вероятност за AI надвишава 60% или дори 80%.
В същото време използваме прагова стойност за индикатора на AI съдържание. След като опцията бъде активирана, системата подчертава само фрагментите, които надхвърлят праговата стойност.

Многоезично откриване на съдържание, генерирано от ИИ

StrikePlagiarism.com открива съдържание, генерирано от ИИ, на повече от 100 езика, включително английски, китайски (мандарин), хинди, испански, френски, арабски, португалски, индонезийски (бахаса), урду, немски, виетнамски, филипински (тагалог), малайски, тамилски, италиански, каталонски, полски, нидерландски, румънски, гръцки, унгарски, чешки, шведски, датски, словашки, норвежки, финландски, литовски, естонски и др., осигурявайки несравнима аналитична точност и защита на академичната цялост.

Как работи откриването на съдържание, генерирано от ИИ?



Модулът използва контролирано обучение, като прилага различни модели, включително модифициран BERT, за да предскаже дали съдържанието е изкуствено или оригинално.
Изкуственият интелект е обучен с милиони текстове, генерирани както от AI, така и от човешки автори, което му позволява да прави разлика между тях. След всяка тренировъчна сесия се използва обширен набор от тестови данни, за да се оцени дали актуализираният модел представлява подобрение.

Лингвистичен анализ
Тъй като съдържанието, създадено от AI, се генерира въз основа на шаблони, често се наблюдават повтарящи се фрази, необичайна синтактична структура или липса на нюанси, характерни за човешкото писане. Тези особености улесняват разпознаването на съдържание, генерирано от AI.

Статистически анализ
Много платформи използват статистически модели, за да оценят сложността на текста, структурата на изреченията и употребата на лексика. AI-генерираните текстове често имат еднаква дължина и структура на изреченията, което ги отличава от човешкото писане.

Модели за машинно обучение
Моделите за машинно обучение (например Originality.AI) са разработени, за да разграничават човешките текстове от тези, създадени от AI. Те използват различни характеристики на текста, включително споменатите по-горе, за идентифициране на специфични модели, които показват, че текстът е генериран от изкуствен интелект.

Важно е да запомните:

Модулът е с над 94% точност при намирането на текст, генериран от GPT-3, GPT-3.5, GPT-4.о, GPT-Plus, GPT-Search и ChatGPT. Въпреки това той не е съвършен и винаги са възможни грешки.
Много по-добре, по-правилно и по-сигурно е да се анализират поредиците от авторски документи, отколкото да се взема решение, базирано на един документ.
Дължината на документа е от значение - колкото по-дълъг е документът, толкова по-точен е резултатът.
Препоръчителната стойност на коефициента на вероятност на ИИ е повече от 60%. Ако коефициентът на вероятност на КВИИ (Коефициент на вероятност за съдържание от ИИ) е над 80%, а КС е под 20%, документът трябва да се анализира внимателно.