Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
ЛюбопитноНовини

Близо 10 % от научните статии за рака са маркирани като потенциално фалшиви

Д-р Мариела Бодемайер Лоайза Кареага

Близо 10% от научните статии за рак може да са фалшиви — изкуственият интелект разкрива мащаба на проблема

Ново проучване в The BMJ: машинно обучение маркира над 261 000 публикации в онкологията като вероятни продукти на «фабрики за статии»


През последните две десетилетия научната литература беше залята от научни статии с ниско качество, създадени от организации с търговска цел, известни като «фабрики за статии». Смята се, че продуктите, за които се подозира, че са създадени от такива фабрики, съставляват между 2 и 46 процента от ръкописите, подадени в научни списания, като според оценки делът на проблематичните статии в биомедицинските изследвания ще достигне почти 6 процента през 2023 г.

Как работят «фабриките за статии»

За да произвеждат масово ръкописи, фабриките за статии често разчитат на шаблони, което води до научни статии с общи характеристики. Те могат да включват:

  • сходства в текста и оформлението;
  • повърхностни описания на хипотези и експериментални дизайни;
  • манипулирани или повторно използвани цифрови изображения;
  • неточно описание на реагентите.

Макар че тези «рецепти» за ръкописи могат да ускорят производството на фабриките за статии, те действат и като «отпечатъци», които изследователите на научната интегритет могат да идентифицират, за да маркират статиите като потенциални продукти на фабрики за статии.

Новият инструмент за машинно обучение

В проучване, публикувано по-рано тази година в The BMJ, екип от учени, ръководен от статистика Адриан Барнет от Технологичния университет на Куинсланд, разработи нов инструмент за машинно обучение за пресяване на публикации в областта на изследванията на рака и маркиране на онези, които вероятно са от фабрики за статии. Те установиха, че близо десет процента от литературата за изследвания в областта на рака, проверена с инструмента, може да произхожда от фабрики за научни статии — процент, надвишаващ приблизителната разпространеност на статиите от фабрики за научни статии в биомедицинските изследвания и показващ, че изследванията в областта на рака са основна цел на тези измамни компании.

От проверените 2,6 милиона статии за рак близо 10% (261 245 публикации) съдържаха текстови признаци в резюметата и заглавията си, които сочеха, че вероятно са произлезли от фабрика за научни статии. Ракът на стомаха, костите, черния дроб, хранопровода и яйчниците бяха видовете рак с най-много маркирани статии.

«Имаме малко решения и още по-малко изследователи, които се опитват да разработят решение[я] за проблема, така че това е наистина удивително»

— каза Жоао Филипе Карденуто, постдокторант и учен по цифрова криминалистика от Университета в Кампинас, Бразилия, който не е участвал в проучването.

Методологията

За да идентифицират статии в областта на онкологията, които вероятно произхождат от «фабрики за статии», Барнет и колегите му разработиха инструмент, базиран на машинно обучение, който разпознава модели в текста и след това ги сравнява с текстови модели, присъщи на оттеглени статии от «фабрики за статии». Въпреки че предишни проучвания сочеха, че текстови шаблони могат да се използват за обучение на модели за машинно обучение с цел идентифициране на продукти на «фабрики за статии», този подход никога не беше тестван в областта на онкологичните изследвания.

«За съжаление, онкологията се превърна в доста често срещана мишена за този вид статии. Отчасти това се дължи на престижа на работата в областта на рака. Има много списания, посветени на рака. Отчасти фундаменталната наука е лесна мишена за тези фабрики за статии, защото е малко по-лесно да се измислят данни»

— обясни Барнет.

Екипът фокусира анализа си върху резюметата и заглавията на статиите, тъй като тези компоненти бяха лесно достъпни. Те разработиха модела си, използвайки статии, маркирани като произхождащи от фабрики за статии в базата данни Retraction Watch, а след това валидираха ефективността на инструмента, използвайки онлайн списък с проблемни статии, съставен от специалисти по интегритет. При тестовете за ефективност инструментът за машинно обучение правилно маркира проблемните статии с около 90% точност.

След това учените приложиха своя инструмент за проверка към 2,6 милиона статии за изследвания на рака, публикувани между 1999 и 2024 г. Сред публикациите 261 245 статии — близо 10 процента от целия анализиран корпус на литературата — показаха текстови сходства с оттеглени статии от фабрики за статии.

Мащабът на проблема и засегнатите видове рак

Макар процентът на маркираните статии за рак да изглежда висок, Барнет обясни, че той може да подценява действителната разпространеност на продуктите на фабриките за статии в тази област, тъй като тези компании са увеличили производството си през годините — тенденция, наблюдавана и в настоящото проучване.

«Дали всъщност е десет процента, ние не знаем със сигурност. Всъщност може да е повече, защото ние откриваме само един конкретен вид шаблон. Ако фабриките разполагат с други, по-сложни шаблони, ние бихме ги пропуснали.»

Потенциалните фалшиви статии най-често бяха свързани с определени видове рак:

  • рак на стомаха (22%);
  • рак на костите (21%);
  • рак на черния дроб (20%).

Списания с високо влияние — не са имунизирани

Екипът установи, че процентът на маркираните статии в списания от най-високо ниво показва устойчиво увеличение, което показва, че фабриките за статии не се ограничават до списания с ниско влияние и предполага, че импакт факторите може да не са надеждни показатели за качество на научните изследвания.

Въпросът за произхода

Инструментът за скрининг чрез машинно обучение разкри, че автори от китайски институции съставляват по-голямата част от потенциалните статии от фабрики за статии (36 процента) — констатации, съответстващи на предишни данни. Въпреки усилията на авторите да балансират обучителните масиви данни по език, прекомерното присъствие на китайски изследователи все пак може да въведе пристрастие в модела, обясни Карденуто, тъй като инструментът може да е научил модели, характерни за китайското научно писане, вместо характеристики, свързани с фалшиви публикации.

Макар новият инструмент за проверка да е проектиран с оглед на издателите на научни статии, Барнет се надява, че той може да привлече вниманието към проблема с «фабриките за статии» и да повиши осведомеността сред изследователите:

«За съжаление, това вече е нещо, за което трябва да мислите, когато четете или рецензирате статии.»

THE SCIENTIST

Подобни публикации

Back to top button