FAKE NEWS DETECTION SYSTEM BASED ON DATA SCIENCE ; СИСТЕМА ВИЯВЛЕННЯ ФЕЙКОВИХ НОВИН ЗА ДОПОМОГОЮ DATA SCIENCE
Urgency of the research. Today, the task of analyzing the veracity of information in the news, which filled all existing channels for obtaining information, is relevant. Its urgency is related to the need to prevent panic by obtaining inaccurate information, debunking pseudo-scientific facts that can threaten people's lives, combating political propaganda and others. Target setting This article focuses on the concept of developing a system for detecting fake news, analysis of existing systems and their principles of operation, principles of construction of their algorithms and features of their use. Actual scientific researches and issues analysis. Recent open publications, statistics, and corporate reports were reviewed. Uninvestigated parts of general matters defining. File analysis will be performed using three methods / classifiers and without the use of PassiveAgressive classifier. The calculation and derivation of results is performed by constructing error matrices and calculating accuracy. The research objective. The main purpose of the work is to create a system for detecting fake news on the basis of the considered materials and to achieve the highest possible accuracy. Presenting main material. Input data for the study were selected, prepared and analyzed. Data were studied using the methods / classifiers of Logistic Regression, Decision Tree and Random Forest. The accuracy of detecting fake news is calculated. Conclusions. The proposed system allows to classify news as "fake" or "true" with an accuracy of 98-99 %. ; Актуальність теми дослідження. Великий об'єм інформації, що став традиційним для інформаційного суспільства, створює нові виклики для людства. На заміну проблемі складного доступу до інформації, що була актуальна раніше, приходить нова проблема: структуризації та фільтрування інформації. Серед загального потоку інформаційного шуму актуальним стає питання виокремлення правди. У цьому контексті важливим постає питання не лише розвитку критичного мислення, але й розробки технічних засобів виявлення фейків. Постановка проблеми. Ця робота фокусується на понятті розробки системи виявлення фейкових новин, аналізі існуючих систем та їхніх принципів роботи, принципів побудови їхніх алгоритмів та особливостях їх використання. Аналіз останніх досліджень та публікацій. Були розглянуті останні публікації у відкритому доступі, статистичні дані, звіти корпорацій. Виділення недосліджених частин загальної проблеми. Аналіз файлу буде виконаний за допомогою трьох методів/класифікаторів і без використання PassiveAgressive класифікатора. Обчислення та виведення результатів виконується за допомогою побудови матриць помилок та розрахування точності. Постановка задачі. Основною метою роботи є створення на основі розглянутих матеріалів систему виявлення фейкових новин та досягти найбільш можливої точності. Виклад основного матеріалу. Обрано вхідні дані для дослідження, проведена їх підготовка та аналіз. Проведено дослідження даних за допомогою методів/класифікаторів Логістичної регресії, Дерева рішень та Рандомного лісу. Обчислена точність виявлення фейкових новин. Висновки відповідно до статті. Запропонована система дозволяє класифікувати новини як «фейкові» або «правдиві» з точністю 98-99 %.