Methods for automatic speaker identification by voice ; Методы автоматической идентификации диктора по голосу ; Методи автоматичної ідентифікації диктора за голосом
Each person has individual voice characteristics, which are determined by the characteristics of the structure of his vocal organs. In the process of communication, people are able to discern the voices of other people on a subconscious level, but for computing technology this task is non-trivial and requires focused research.The purpose of the article is to analyze the existing methods of recognition of speech information, to identify their weak and strong points in order to justify the choice of the most receptive regarding the recognition of the speaker by voice.The growth of the global market for voice recognition devices depends on many factors. One of the main factors is the increase in demand for voice biometrics services. With the increasing complexity and frequency of security breaches, the latter continues to be one of the main requirements for the Armed Forces of Ukraine. The high demand for voice biometrics, which is unique to any person, is crucial in determining a person's identity.Military departments in most countries use extremely restricted areas to prevent intruders from entering. To ensure secrecy and security in this area, the military uses voice recognition systems.Any recognition system works in two modes: in the registration mode and the identification mode. In other words, you need to have an example voice.Currently, there are a number of methods that allow solving problems of text-independent speaker identification by voice, and each of these methods has its own advantages and disadvantages. However, the most common method is the Gaussian Mixture Model. Models of Gaussian mixtures have proven themselves as a stochastic model for building recognition systems. They are convenient not only for modeling the characteristics of the speaker's voice, but also for the recording channel and the environment.An effective speech recognition system should include the following steps in processing the input signal: noise removal, segmentation, selection of voiced sections, parameterization, recognition, and correction with a feedback dictionary. ; Каждый человек имеет индивидуальные голосовые характеристики, которые определяются особенностями строения его голосовых органов. В процессе общения люди способны на подсознательном уровне различать голоса других людей, однако для вычислительной техники эта задача является нетривиальной и требует целенаправленных исследований.Цель статьи ‑ анализ существующих методов распознавания речевой информации, определение их слабых и сильных сторон для обоснования выбора наиболее восприимчивого относительно распознавания диктора по голосу.Рост мирового рынка устройств распознавания голоса зависит от множества факторов. Одним из основных факторов является увеличение спроса на услуги голосовой биометрии. С увеличением сложности и частоты нарушений безопасности, последняя продолжает оставаться одним из основных требований для Вооруженных Сил Украины. Высокий спрос голосовой биометрии, которая является уникальной для любого человека, имеет решающее значение в установлении личности человека.Военные ведомства в большинстве стран используют крайне ограниченные зоны для того, чтобы предотвратить проникновение злоумышленников. Для обеспечения секретности и безопасности в этой зоне, военные используют системы распознавания голоса.Любая система распознавания работает в двух режимах: в режиме регистрации и режиме идентификации. Другими словами, необходимо иметь пример голоса.В настоящее время существует определенное количество методов, позволяющих решать задачи текстонезависимой идентификации диктора по голосу, причем каждый из указанных методов имеет свои преимущества и недостатки. Однако, наиболее распространенным методом является Gaussian Mixture Model. Модели гауссовых смесей хорошо себя зарекомендовали в качестве стохастической модели для построения систем распознавания. Они удобны не только для моделирования характеристик голоса диктора, но и канала звукозаписи, окружающей среды.Эффективная система распознавания речи должна предусматривать следующие этапы обработки входного сигнала: удаление шума, сегментация, выделение вокализованных участков, параметризация, распознавание, корректировка по словарю с обратной связью. ; Кожна людина має індивідуальні голосові характеристики, які визначаються особливостями будови його голосових органів. У процесі спілкування люди здатні на підсвідомому рівні розрізняти голоси інших людей, однак для обчислювальної техніки ця задача є нетривіальною і вимагає цілеспрямованих досліджень.Мета статті ‑ аналіз існуючих методів розпізнавання мовної інформації, визначення їх слабких і сильних сторін для обгрунтування вибору найбільш сприйнятливого стосовно розпізнавання диктора за голосом.Зростання світового ринку пристроїв розпізнавання голосу залежить від множини факторів. Одним з основних факторів є збільшення попиту на послуги голосової біометрії. Зі збільшенням складності і частоти порушень безпеки, остання продовжує залишатися одним з основних вимог для Збройних Сил України. Високий попит голосової біометрії, яка є унікальною для будь-якої людини, має вирішальне значення у встановленні особи людини.Військові відомства в більшості країн використовують вкрай обмежені зони для того, щоб запобігти проникненню зловмисників. Для забезпечення секретності і безпеки в цій зоні, військові використовують системи розпізнавання голосу.Будь-яка система розпізнавання працює в двох режимах: в режимі реєстрації та режимі ідентифікації. Іншими словами, необхідно мати приклад голосу.На даний час існує певна кількість методів, що дають змогу вирішувати завдання текстонезалежної ідентифікації диктора за голосом, причому кожен із наведених методів має свої переваги та недоліки. Проте, найбільш поширеним методом є Gaussian Mixture Model. Моделі гаусових сумішей добре себе зарекомендували в якості стохастичної моделі для побудови систем розпізнавання. Вони зручні не тільки для моделювання характеристик голосу диктора, але і каналу звукозапису, навколишнього середовища.Ефективна система розпізнавання мови має враховувати такі етапи обробки вхідного сигналу, як видалення шуму, сегментація, виділення вокалізованих ділянок, параметризація, розпізнавання, коригування за словником з оберненим зв'язком.