The Long Tail theory serves as an explanation for market change triggered through evolving online market conditions. However, it is often referred to without empirical validation, or with inconsistent findings on its applicability. Therefore, this paper analyses the applicability of the Long Tail theory to German online media offerings as of 2014 and 2016, focusing on offerings that serve information purposes (information offerings). Based on a unique dataset of commercially oriented online media offerings (Longitudinal IntermediaPlus 2014–2016), an analysis for three Long Tail characteristics (variety increase, opposing concentration between hit and niche offerings and niche market share increase) is conducted. By additionally distinguishing between political and entertainment-oriented information offerings as boundaries of democratized online market conditions the analysis reveals that the Long Tail theory is not fully applicable to any market sample, and especially not to politically oriented offerings.
Bei dem aufbereiteten Längsschnitt-Datensatzes 2014 bis 2016 handelt es sich um "Big-Data", weshalb der Gesamtdatensatz nur in Form einer Datenbank (MySQL) verfügbar sein wird. In dieser Datenbank liegt die Information verschiedener Variablen eines Befragten untereinander. Die vorliegende Publikation umfasst eine SQL-Datenbank mit den Meta-Daten des Sample des Gesamtdatensatzes, das einen Ausschnitt der verfügbaren Variablen des Gesamtdatensatzes darstellt und die Struktur der aufbereiteten Daten darlegen soll, und eine Datendokumentation des Samples. Für diesen Zweck beinhaltet das Sample alle Variablen der Soziodemographie, dem Freizeitverhalten, der Zusatzinformation zu einem Befragten und dessen Haushalt sowie den interviewspezifischen Variablen und Gewichte. Lediglich bei den Variablen bezüglich der Mediennutzung des Befragten, handelt es sich um eine kleine Auswahl: Für die Onlinemediennutzung wurden die Variablen aller Gesamtangebote sowie der Einzelangebote der Genre Politik und Digital aufgenommen. Die Mediennutzung von Radio, Print und TV wurde im Sample nicht berücksichtigt, da deren Struktur anhand der veröffentlichten Längsschnittdaten der Media-Analyse MA Radio, MA Pressemedien und MA Intermedia nachvollzogen werden kann.
Die Datenbank mit den tatsächlichen Befragungsdaten wäre auf Grund der Größe des Datenmaterials bereits im kritischen Bereich der Dateigröße für den normalen Up- und Download. Die tatsächlichen Befragungsergebnisse, die zur Analyse nötig sind, werden dann 2021 in Form des Gesamtdatensatzes der Media-Analyse-Daten: IntermediaPlus (2014-2016) im DBK bei GESIS veröffentlicht werden.
Die Daten sowie deren Datenaufbereitung sind ein Vorschlag eines Best-Practice Cases für Big-Data Management bzw. den Umgang mit Big-Data in den Sozialwissenschaften und mit sozialwissenschaftlichen Daten. Unter Verwendung der GESIS Software CharmStats, die im Rahmen dieses Projektes um Big-Data Features erweitert wurde, erfolgt die Dokumentation und Herstellung der Transparenz der Harmonisierungsarbeit. Durch ein Python-Skript sowie ein html-Template wurde der Arbeitsprozess um und mit CharmStats zudem stärker automatisiert.
Der aufbereitete Längsschnitt des Gesamtdatensatzes der MA IntermediaPlus für 2014 bis 2016 wird 2021 in Kooperation mit GESIS herausgegeben werden und den FAIR-Prinzipien (Wilkinson et al. 2016) entsprechend verfügbar gemacht werden. Ziel ist es durch die Harmonisierung der einzelnen Querschnitte die Datenquelle der Media-Analyse, die im Rahmen des Dissertationsprojektes "Angebots- und Publikumsfragmentierung online" durch Inga Brentel und Céline Fabienne Kampes erfolgt, für Forschung zum sozialen und medialen Wandel in der Bundesrepublik Deutschland zugänglich zu machen.
Künftige Studiennummer des Gesamtdatensatzes der IndermediaPlus im DBK der GESIS: ZA5769 (Version 1-0-0) und der doi: https://dx.doi.org/10.4232/1.13530
****************English Version****************
The prepared Longitudinal IntermediaPlus dataset 2014 to 2016 is a "big data", which is why the entire dataset will only be available in the form of a database (MySQL). In this database, the information of different variables of a respondent is organized in one column, one below the other. The present publication includes a SQL-Database with the meta data of a sample of the full database, which represents a section of the available variables of the total data set and is intended to show the structure of the prepared data and the data-documentation (codebook) of the sample. For this purpose, the sample contains all variables of sociodemography, free-time activities, additional information on a respondent and his household as well as the interview-specific variables and weights. Only the variables concerning the respondent's media use are a small selection: For online media use, the variables of all overall offerings as well as the individual offerings of the genres politics and digital were included. The media use of radio, print and TV was not included in the sample because its structure can be traced using the published longitudinal data of the media analysis MA Radio, MA Pressemedien and MA Intermedia.
Due to the size of the datafile, the database with the actual survey data would already be in the critical range of the file size for the common upload and download. The actual survey results required for analysis will be published in 2021 in the form of the total dataset of the Longitudinal IntermediaPlus (2014-2016) dataset at the GESIS DBK.
The data as well as their data preparation are a proposal for a best practice case for big-data management and/or the handling of big data in the social sciences and with social science data. Using the GESIS software CharmStats, which was extended by big-data features within this project, the documentation and creation of transparency of the harmonization work is carried out. A Python script and an html template have been used to automate the workflow with and within CharmStats.
The full dataset of the Longitudinal IntermediaPlus for 2014 to 2016 will be published in 2021 in cooperation with GESIS and made available in accordance with the FAIR principles (Wilkinson et al. 2016). By harmonizing and pooling the cross-sectional datasets to one longitudinal dataset – which is being carried out by Inga Brentel and Céline Fabienne Kampes as part of the dissertation project "Audience and Market Fragmentation online" –, the aim is to make the data source of the media analysis, accessible for research on social and media change in the Federal Republic of Germany.
The future study number of full the Longitudinal IntermediaPlus (2014-2016) dataset at the GESIS DBK will be: ZA5769 (Version 1.0.0) and doi: https://dx.doi.org/10.4232/1.13530
Die Media-Analyse Daten wurden zu kommerziellen Zwecken erhoben. Sie werden in der Mediaplanung sowie der Werbeplanung der unterschiedlichen Mediengattungen (Radio, Pressemedien, TV, Plakat und seit 2010 auch Online) eingesetzt. Es handelt sich um Querschnitte, die für ein Jahr aneinandergereiht werden. Die ag.ma stellt freundlicherweise jährlich – mit einer Frist von zwei Jahren – die entsprechenden Daten der GESIS zur wissenschaftlichen Nutzung bereit. Zusätzlich hat die agof für die Aufbereitung der Online-Tranche der MA IntermediaPlus Unterlagen bezüglich der Datenerhebung (Fragebögen, Codepläne, usw.) bereitgestellt.
Um die Daten für die wissenschaftliche Nutzung zugänglich zu machen, wurden ab 2018 im Rahmen des Dissertationsprojektes "Angebots- und Publikumsfragmentierung online" des Graduiertenkollegs Digitale Gesellschaft NRW an der Heinrich-Heine-Universität (HHU) sowie der Hochschule Düsseldorf (HSD) gefördert durch das Ministerium für Kultur und Wissenschaft des Landes Nordrhein-Westfalen die Datensätze der einzelnen Jahre zu einem Längsschnitt-Datensatz ab 2014 harmonisiert.