Big Data and Official Statistics ; Большие данные и официальная статистика
Big data is a component of the Fourth Industrial Revolution. The deep penetration of digital technology has turned data into an essential component of the production process. Data are automatically generated by machines during the course of operation and during interactions with humans. This paper describes the concept and composition of big data. Most of the big data are unstructured and include text, audio-video files, images, emails, log files, etc. Statisticians are more interested in structured data presented in a pre-defined database model. Big data offer new sources and opportunities that cannot be discounted. However, the use of big data requires proper assessment in terms of quality dimensions such as accuracy, comparability and methodological soundness. Against the backdrop of arguments regarding big data, some users view big data as a replacement of official statistics. Such a conclusion is premature for at least two reasons: first, only a small part of big data can be used for decision-making. Second, theory and practice prove that a small sample based on scientific methods can yield much more reliable and accurate estimates than the results obtained from the processing of large amounts of unstructured data. The paper assesses the possibility of using big data for Sustainable Development Goals (SDG) monitoring, which is a nationally owned process, and NSOs are accountable for the SDG data they report. If the data are derived from a big data source, irrespective of the level of technical sophistication used in data transformation, the reliability of such data might be questioned by the national institutions. The paper concludes that the reliability of data obtained from big data sources hinges on the quality of tools and methods applied to data transformation. Statisticians can play an important role in alerting society, decision-making bodies of the government and businesses about the reliability of information derived from the different sources. ; Большие данные - одна из составляющих четвертой промышленной революции. Глубокое внедрение цифровой технологии в экономику способствовало тому, что информация стала неотъемлемым элементом производственного процесса. Большие данные создаются в процессе работы машины, взаимодействия человека с машиной и взаимодействия между людьми. В статье последовательно рассматриваются вопросы, вытекающие из ее названия. Прежде всего, раскрывается содержание понятия ≪большие данные≫, отмечается, что это не только цифры в традиционном понимании, но и текстовая часть, аудио- и видеозаписи в социальных сетях, фотографии, спутниковые изображения, электронные письма, программы, приложения и многое другое. Автор проводит различие между неструктурированными и структурированными данными, отмечая, что последние - это в основном количественные данные, которые представлены в базе данных с заранее определенной моделью для их хранения, обработки и распространения. Анализируя такой новый и, безусловно, революционный источник информации, каковым являются большие данные, автор оценивает их с точки зрения соответствия основным критериям и базовым принципам качества данных, таким как достоверность, возможность обеспечения сопоставимости, точность и надежность, правильное использование методологии. Отмечается, что тема больших данных вызывает чрезвычайный интерес у статистиков, которые рассматривают их как дополнительный источник сведений в условиях бурного развития информационных технологий. При этом некоторые пользователи переоценивают их потенциал и часто трактуют большие данные как предстоящую замену официальной статистики. Однако, по мнению автора, такое заключение является преждевременным; использовать большие данные необходимо с определенной осторожностью. Автор статьи отмечает два важных момента. Во-первых, для значительного числа пользователей интерес представляет только часть больших данных, а именно структурированные данные, в результате чего объем первых значительно сокращается. Во-вторых, как наукой, так и практикой доказано, что для получения достоверных результатов достаточно наблюдать небольшое число единиц, отобранных на основе случайной выборки (выборочной совокупности). В статье также дается критическая оценка больших данных с точки зрения других национальных базовых принципов, принятых ООН для обеспечения качества статистических данных. Особо выделяются проблемы, связанные с мониторингом достижения Целей устойчивого развития (ЦУР). Автор отмечает, что за данные, предоставляемые официальной статистикой, несут ответственность национальные статистические управления (НСУ). В отсутствие какой-либо институциональной ответственности надежность больших данных может быть поставлена под сомнение. В заключение подчеркивается, что пригодность больших данных определяется обоснованностью предположений, которые устанавливаются в ходе трансформации неструктурированного массива информации для проведения некоторого количественного измерения. В противном случае, по мнению автора, возможно проникновение в информационное поле потока нестатистической количественной информации в большом объеме, которая может дезинформировать общество и привести органы государственного управления и бизнеса к принятию неверных решений.