Abstract

Measuring the size and characteristics of the demand for labour is not an easy task. On the one hand, increasing non-response and under-reporting in business sample surveys introduce bias in job vacancy estimates and the limited scope of surveys does not allow to provide estimates of skills and competencies demand or to cover all types of contracts (e.g. contract agreement, B2B). On the other hand, administrative data and the Internet cover thousands of job ads full of valuable information but direct usage of these sources for statistics is limited by the coverage and selection error. While there are plenty of applications of job ads for describing demand, mismatch or matching little is done in order to correct for measurement error or non-representativeness. Thus, results based on these studies may provide wrong recommendations for the policymakers.

Therefore, this project aims to tackle these problems using modern statistical methods and propagate uncertainty in macroeconomic analysis and policy guidance. The main objective of the project is to develop new methods to measure the size and characteristics of the job vacancies (including non-standard and flexible work contracts) based on the survey, online and administrative data, and apply it to analyse the short-run and long-run developments of the vacancy market in Poland and the matching technology. To fulfil the main objective we identify five specific objectives.

Firstly, we will propose a new approach to estimate the number of vacancies, which is based solely on online and administrative data using capture-recapture and latent class analysis methods. To fill this task we will use data from public employment offices and several online services. These data require cleaning and deduplication procedures that we plan to develop during the project. Classification algorithms will be developed to identify employers and job characteristics (e.g. occupation, skills, type of contract).

Secondly, we will correct for non-representativeness of big data sources by usage of the Demand for Labour survey (Statistics Poland). To tackle this problem we will use data integration methods and extend them for measurement error as all variables from job ads will be obtained from classification algorithms. In additiion, results from task will be used to correct survey weights. In this task, we will closely work with an expert from the North Carolina State University, USA.

Thirdly, we will use results from task 1 & 2 to estimate the size and structure of demand for skills. This will supply unique variables that cannot be obtained in surveys, such as skills, contract types or contract mode (remote, hybrid, mobile, traditional). Thanks to this we will analyse the skill evolution both between occupations and within them. This will show the evolution of skill reqirements and will help anticipate skill needs.

Fourthly, as we have access to data before the COVID-19 pandemic and migration inflow of Ukrainians we will verify hypotheses about the structural change in the labour market. COVID-19 recession sped up the process of labour market transformation – online work and more flexible work contracts, such as B2B. Such contracts are not included in employment estimates in the official statistics, while they have a profound effect on the labour market. The inflow of migrants may be an opportunity for firms, but to unknown extent. We will test and model the structural change.

Finally, thanks to unique data on job offers and job seekers’ behaviour we will analyse the search and matching process in more detail than it has been done before. In this task, we will use and merge rich unit-level data on the unemployed and job offers from public employment offices, thanks to the information on the matches between them, that we already possess. It will enable to test influence of requirements from individual job offers and histories of unemployed persons on job search.

We plan to work according to the open science principles, i.e. we plan to use and develop open-source software, make the algorithms and data available to the public and present the work in open access journals.

We believe that the project will have an impact not only on official statistics through developing new methods for non-probability samples and integration of statistical and non-statistical sources but also on labour market economics and policy, providing new, in-depth, and reliable information about the vacancy market.

Pomiar wielkości i charakterystyk popytu na pracę nie jest łatwym zadaniem. Z jednej strony rosnący brak odpowiedzi i niedoszacowanie w badaniach przedsiębiorstw wprowadzają błędy w szacunkach wolnych miejsc pracy, a ograniczony zakres badań nie pozwala na oszacowanie popytu na umiejętności ani na uwzględnienie wszystkich typów umów o pracę (np. umowa o dzieło, Business-to-Business). Z drugiej strony dane administracyjne i internetowe obejmują tysiące ogłoszeń o pracę, zawierających cenne informacje, ale bezpośrednie wykorzystanie tych źródeł w statystyce jest ograniczone przez błędy pokrycia i selekcji. Chociaż istnieje wiele zastosowań ogłoszeń o pracy do opisu popytu na umiejętności, niewiele robi się w celu skorygowania błędów pomiaru lub niereprezentatywności. W rezultacie wyniki oparte na tych badaniach mogą dostarczać błędnych rekomendacji dla decydentów politycznych.

Projekt ma na celu rozwiązanie tych problemów za pomocą nowoczesnych metod statystycznych i propagowanie włączenia ocen niepewności do analiz makroekonomicznych i wskazań polityki gospodarczej. Głównym celem projektu jest opracowanie nowych metod pomiaru wielkości i charakterystyk wolnych miejsc pracy (w tym niestandardowych i elastycznych umów o pracę) na podstawie danych z badań reprezentacyjnych, danych internetowych i rejestrów administracyjnych oraz zastosowanie ich do analiz krótko- i długookresowych zmian na rynku wolnych miejsc pracy w Polsce, a także technologii dopasowań pomiędzy uczestnikami rynku pracy. Aby zrealizować cel główny, formułujemy pięć celów pomocniczych.

Po pierwsze, zaproponujemy nowe podejście do szacowania liczby wolnych miejsc pracy, oparte wyłącznie na danych internetowych i administracyjnych, wykorzystując metody capture-recapture i analizy klas ukrytych. W tym celu wykorzystamy dane z urzędów pracy i serwisów internetowych. Dane te wymagają czyszczenia i deduplikacji, których metody planujemy dopracować w ramach projektu. Opracujemy algorytmy klasyfikacji w celu identyfikacji pracodawców i różnych charakterystyk pracy (np. zawodu, umiejętności, typu umowy o pracę).

Po drugie, skorygujemy niereprezentatywność dużych zbiorów danych za pomocą Badania Popytu na Pracę (GUS). Aby rozwiązać ten problem, wykorzystamy metody integracji danych i rozszerzymy je o uwzględnienie błędów pomiaru, ponieważ wszystkie zmienne utworzone na podstawie ogłoszeń o pracy będą utworzone na podstawie zastosowania algorytmów klasyfikacji. Ponadto wyniki z tego zadania zostaną wykorzystane do korekty wag badań reprezentacyjnych.

Po trzecie, wykorzystamy wyniki z zadań 1 i 2 do oszacowania wielkości i struktury popytu na umiejętności. Dostarczy to unikalnych zmiennych, których nie można uzyskać w badaniach reprezentacyjnych. Są to: umiejętności, rodzaje umów o pracę, tryb pracy (zdalna, hybrydowa, mobilna, tradycyjna) i inne. Dzięki temu przeanalizujemy ewolucję umiejętności zarówno pomiędzy zawodami, jak i w ich obrębie. Pozwoli to na analizę przeobrażeń w wymaganiach na umiejętności i pomoże przewidzieć przyszłe potrzeby na poszczególne kompetencje.

Po czwarte, mając dostęp do danych sprzed pandemii COVID-19 i napływu migrantów z Ukrainy, zweryfikujemy hipotezy dotyczące zmian strukturalnych na rynku pracy. Recesja COVID-19 przyspieszyła proces transformacji rynku pracy, w tym korzystanie z pracy zdalnej i elastycznych umów o pracę, takich jak umowy typu Business-to-Business. Takie umowy nie są uwzględniane w szacunkach wakatów dokonywanych w ramach statystyki oficjalnej, ale mogą mieć znaczący wpływ na rynek pracy. Z kolei napływ uchodźców z Ukrainy może być dla polskich przedsiębiorstw szansą, ale w trudnym do określenia stopniu. Nie wiadomo bowiem czy imigranci konkurują o miejsca pracy z rodzimymi pracownikami, czy uzupełniają występujące na rynku luki. Będziemy testować i modelować zmiany strukturalne.

W ostatnim zadaniu, dzięki unikalnym danym na temat ofert pracy i zachowań poszukujących pracy przeanalizujemy proces poszukiwań na rynku pracy bardziej szczegółowo niż było to możliwe wcześniej. W tym zadaniu wykorzystamy i połączymy bogate mikrodane na temat bezrobotnych i ofert pracy z urzędów pracy, dzięki informacjom o dopasowaniach pomiędzy nimi. Pozwoli to przetestować wpływ wymagań z poszczególnych ofert pracy i historii bezrobotnych na proces efektywność dopasowań pomiędzy nimi.

W projekcie planujemy pracować zgodnie z zasadami otwartej nauki, tj. korzystać z oprogramowania na otwartych licencjach, publicznie udostępniać algorytmy i dane oraz prezentować prace w czasopismach o otwartym dostępie.

Wierzymy, że projekt będzie miał wpływ nie tylko na statystykę oficjalną poprzez opracowanie nowych metod dla prób nielosowych i integrację źródeł statystycznych i niestatystycznych, ale także na ekonomię rynku pracy i politykę gospodarczą, dostarczając nowych, szczegółowych i wiarygodnych informacji na temat rynku wolnych miejsc pracy.

Research Plan

  1. Web-scraping and statistical analysis of data used in the project
  2. Developing new methods to assess quality of online data
  3. Developing new methods for estimation of the number of job vacancies
  4. Developing new data integration methods for non-probability samples with mis-classification
  5. Estimation of the quality of non-random sources (admin and online data)
  6. Estimation of the number of job vacancies (total and sub-populations)
  7. Estimation of demand for skills and competencies based on admin and online data
  8. Descriptive and economic analysis based on estimated data
  9. Analysis and modelling skills over time
  10. Analysis of structural developments of the labour market in relation to the COVID-19 pandemic and war in Ukraine
  11. Estimation of skill matching using admin and online unit-level data under mis-classification
  1. Web-scraping i analiza statystyczna danych wykorzystywanych w projekcie
  2. Opracowanie nowych metod oceny jakości danych online
  3. Opracowanie nowych metod szacowania liczby wolnych miejsc pracy
  4. Opracowanie nowych metod estymacji z wykorzystaniem prób nieprobabilistycznych uwzględniających błąd klasyfikacji
  5. Estymacja wskaźników jakości dla prób nieprobabilistycznych
  6. Oszacowanie liczby wolnych miejsc pracy (ogółem i w wybranych przekrojach)
  7. Oszacowanie popytu na umiejętności i kompetencje na podstawie danych administracyjnych i online
  8. Analiza opisowa i ekonomiczna uzyskanych danych
  9. Analiza i modelowanie umiejętności w czasie
  10. Analiza zmian strukturalnych na rynku pracy w relacji do pandemii COVID-19 i wojny w Ukrainie
  11. Oszacowanie mechanizmu dopasowań pod względem umiejętności na rynku pracy przy wykorzystaniu danych jednostkowych adresując problemy błędów klasyfikacji