Обзор датасета TAWOS для анализа трудозатрат и процессов разработки ПО

Обзор
DOI:
https://doi.org/10.60797/itech.2026.10.1
EDN:
PTJNVY
Предложена:
25.10.2025
Принята:
03.02.2026
Опубликована:
14.04.2026
Выпуск: № 2 (10), 2026
Правообладатель: авторы. Лицензия: Attribution 4.0 International (CC BY 4.0)
33
0
XML
PDF

Аннотация

Настоящая статья представляет собой детальный обзор открытого набора данных TAWOS, предназначенного для анализа трудозатрат и процессов разработки программного обеспечения. Дается комплексное описание структуры и содержания датасета, который агрегирует информацию из 12 открытых репозиториев систем управления проектами и включает данные о 458 тысячах задач, полученных из 39 проектов с открытым исходным кодом от таких организаций, как Apache, MongoDB, Atlassian и других.

Основное внимание уделяется реляционной структуре набора данных. Подробно описываются ключевые сущности, такие как Issue (задачи с их атрибутами), Comment (комментарии к задачам), Change_Log (история изменений), Component (компоненты ПО), Version (версии), Sprint (спринты) и другие, а также связи между ними. Отмечается, что датасет предоставляет многогранные данные, охватывающие метаданные задач, временные затраты, активность участников и ход итераций.

В статье также рассматриваются потенциальные сценарии практического применения TAWOS, включая прогнозирование трудозатрат и сроков выполнения задач, анализ производительности команд и выявление закономерностей в процессах разработки. При этом подчеркиваются существующие ограничения набора данных, такие как его формирование исключительно на основе публичных проектов, неполнота и вариативность метаданных.

1. Введение

Современная разработка программного обеспечения характеризуется высокой динамичностью процессов, разнообразием используемых методологий и возрастанием роли данных в управлении проектами. Для повышения эффективности планирования, оценки трудозатрат и анализа производительности команд все чаще применяются подходы, основанные на анализе реальных проектных данных. В этой связи особую ценность приобретают открытые датасеты, отражающие реальные процессы разработки, взаимодействие участников и изменение состояния задач в ходе жизненного цикла проекта.

Одним из таких источников является открытый набор данных TAWOS. Он объединяет данные о задачах, спринтах, коммитах и активности участников из систем управления проектами Jira, предоставляя исследователям возможность изучать закономерности распределения трудозатрат, прогнозировать сроки выполнения задач и оценивать эффективность командных процессов. Настоящая статья посвящена анализу структуры и возможностей применения датасета TAWOS, а также рассмотрению его ограничений и научной значимости для исследований в области программной инженерии

,
,
.

2. Методы и принципы исследования

В рамках данного обзора использовался метод структурного и сравнительного анализа открытых датасетов программной инженерии. Исследование включает:

- анализ схемы данных и реляционных связей датасета TAWOS;

- классификацию сущностей и их атрибутов с точки зрения задач анализа трудозатрат;

- сопоставление TAWOS с другими широко используемыми наборами данных;

- обобщение опубликованных и типовых практик использования аналогичных датасетов в прикладных и исследовательских проектах.

TAWOS рассматривается как база данных, ориентированная на анализ Agile-процессов. Основное внимание уделяется его применимости для количественных исследований: прогнозирования трудозатрат, анализа производительности команд и изучения динамики разработки.

3. Основные результаты

Датасет TAWOS основан на данных систем учета времени, использованных при разработке следующими командами и компаниями:

- Apache;

- Appcelerator;

- Atlassian;

- DNN Tracker;

- Hyperledger;

- Lsstcorp;

- Lyrasis;

- MongoDB;

- Moodle;

- Mulesoft;

- Sonatype;

- Spring.

Датасет включает в себя данные о 458 тысячах задач из 39 проектов с открытым исходным кодом, полученных из 12 открытых репозиториев с данными системы учета времени Jira. Набор данных TAWOS представлен в виде реляционной базы данных, которую можно загрузить и установить в систему управления базами данных MySQL.

На рисунке 1 представлена диаграмма сущностей датасета и отношений между ними.

Диаграмма сущностей датасета, их полей и отношений между ними

Диаграмма сущностей датасета, их полей и отношений между ними

В таблице 1 перечислены сущности, составляющие датасет, и их назначения.

Таблица 1 - Сущности, составляющие датасет TAWOS

Название сущности

Назначение

Issue

Основная сущность, хранящая различные извлеченные, производные и вычисляемые характеристики каждой задачи.

Comment

Содержит каждый комментарий, написанный к задаче, включая время создания и идентификатор автора комментария. Персональные данные заменены тегами.

Change_Log

Хронологически упорядоченные изменения атрибутов задач. Каждая запись содержит предыдущее и новое значение атрибута.

Issue_Components

Промежуточная таблица, связывающая задачи и компоненты (связь многие-ко-многим).

Component

Хранит информацию о компонентах, из которых состоит каждый программный продукт.

Issue_Links

Содержит связи между задачами, которые указывают на их взаимосвязь (например, дублирование, зависимость или блокировка).

User

Содержит уникальных пользователей, которые взаимодействовали с проектами в наборе данных. Идентификатор пользователя сгенерирован БД и не связан с ID в исходном репозитории.

Affected_Version

Промежуточная таблица, связывающая задачи с версиями, в которых была обнаружена ошибка или проблема.

Fix_Version

Промежуточная таблица, связывающая задачи с версиями, в которых функция была исправлена какая-либо ошибка.

Version

Хранит информацию о версиях разрабатываемого ПО (имя, описание, дата выпуска).

Project

Хранит информацию о проектах, включенных в базу данных.

Repository

Хранит информацию о репозиториях, включенных в базу данных.

Sprint

Хранит информацию о спринтах (итерациях) в процессе разработки, включая состояние, даты начала и окончания.

Стоит отметить, что значения категориальных полей сущности Issue могут варьироваться от проекта к проекту. Это означает, что для обозначения статусов, типов и категорий в одном проекте может использоваться один набор значений, а в другом проекте — иной.

Для лучшего понимания исследовательской ценности TAWOS целесообразно рассмотреть его в сравнении с другими известными датасетами:

1. PROMISE Repository — один из наиболее известных репозиториев датасетов программной инженерии. Содержит данные о дефектах, метриках кода и проектах, но практически не включает детальную информацию о процессах Agile, спринтах и трудозатратах

.

2. GHTorrent — крупный датасет, агрегирующий данные GitHub (репозитории, issues, pull requests). Обладает масштабом, но не содержит структурированной информации о спринтах, оценках трудозатрат и Agile-итерациях. Поддержка остановлена в 2019 году

.

Во многих работах TAWOS используется в качестве основного источника эмпирических данных для анализа Agile-проектов и разработки моделей машинного обучения. Например, в репозитории проекта перечислены исследования, опирающиеся на данные TAWOS, такие как:

1. Анализ эффективности использования story points для оценки трудозатрат, где использовались данные о задачах из TAWOS для изучения соответствия оценок фактическим трудозатратам в Agile-разработке

.

2. Исследование методов кластеризации для оценки усилий по задачам, в котором TAWOS служил исходным набором задач для обучения и сравнения методов группировки

.

3. Эксперименты с глубоким обучением для оценки усилий, в частности в работе по изучению эффективности Deep-SE и его репликации с использованием TAWOS (31 960 задач), где датасет использовался для оценки точности предсказаний ML-моделей внутри- и между-проектными сценариями

.

Помимо академических исследований, TAWOS применяется и в современных задачах машинного обучения. Так, репликационный пакет исследования “Impact of Request Formats on Effort Estimation: Are LLMs Different than Humans?” включает код, который извлекает данные из MySQL-базы TAWOS (user stories и описания задач) и использует их для сравнения моделей оценки усилий, интегрируя их с LLM-моделями (GPT, Gemini, LLAMA) для генерации предсказаний трудозатрат

.

Другое исследование, опубликованное в журнале Knowledge-Based Systems, использует TAWOS для классификации уровней серьёзности багов с помощью ансамблевых ML и NLP-методов, включая XGBoost, LightGBM и CatBoost. В этом случае данные TAWOS использовались для извлечения текстовых и структурных признаков из задач и комментариев с целью улучшения точности автоматической классификации

.

Все эти примеры показывают, что TAWOS не ограничивается только описательной статистикой, но служит основой для обучения моделей, сравнительного анализа методов оценки усилий, автоматизации классификационных задач и разработки репликационных пакетов с реальными данными. Такая практика демонстрирует перспективность TAWOS как общего стандартизированного источника данных для анализа жизненного цикла Agile-проектов и применения методов Data-Driven Software Engineering.

4. Обсуждение

Благодаря многоаспектному охвату данных — от метаданных задач и времени их исполнения до активности участников и хода спринтов — TAWOS может использоваться для анализа производительности команд разработки. Сопоставление трудозатрат с параметрами задач позволяет выявлять закономерности в распределении нагрузки, оценивать эффективность распределения ролей и прогнозировать возможные отклонения от плановых сроков. Кроме того, наличие информации о связях между задачами и коммитами открывает возможности для анализа соответствия плановых и фактических результатов разработки.

Одним из перспективных направлений применения датасета является построение и обучение моделей прогнозирования сроков и трудозатрат. Используя текстовые описания задач, историю спринтов и метрики участников, можно создавать алгоритмы машинного обучения для автоматической оценки сложности задач и предсказания длительности их выполнения. Это особенно актуально в контексте современных подходов к оценке трудозатрат, где используются большие языковые модели (LLM)

,
,
.

TAWOS также предоставляет основу для анализа качества процессов разработки и зрелости команд. Сопоставление данных об ошибках, комментариях и кодовых изменениях позволяет оценивать качество коммуникаций, выявлять «узкие места» в процессах ревью и интеграции, а также исследовать факторы, влияющие на устойчивость и успех проектов. Такие исследования могут способствовать построению моделей зрелости процессов и выявлению зависимостей между организационной культурой и эффективностью выполнения задач

,
.

Наконец, датасет может использоваться для изучения факторов успешности программных проектов в целом. Сравнение метрик различных команд и проектов — например, объёмов задач, средней продолжительности их выполнения и частоты релизов — позволяет выявлять ключевые детерминанты успешности и устойчивости процессов. Это делает TAWOS универсальной исследовательской платформой, обеспечивающей как количественный, так и качественный анализ разработки программного обеспечения

,
.

Несмотря на широкий спектр возможностей анализа, датасет TAWOS обладает рядом ограничений, которые необходимо учитывать. Прежде всего, он формируется на основе данных из публичных репозиториев и проектных трекеров, что может приводить к неполному охвату типов проектов и практик разработки. Такая выборка ограничивает репрезентативность данных и снижает возможность обобщения результатов на другие контексты и методологии.

Также существенным ограничением является неполнота и вариативность метаданных. В ряде случаев отсутствуют оценки трудозатрат, сроки или комментарии, что усложняет построение корректных выборок и требует дополнительной очистки данных. Кроме того, логи активности отражают лишь формализованные действия пользователей, не учитывая неформальные взаимодействия или внешние инструменты, используемые в процессе работы.

Значительную сложность создаёт и разнородность форматов данных. Поскольку информация собрана из различных проектов, использующих разные подходы к ведению трекеров, структура и семантика полей могут отличаться. Это осложняет сопоставление данных между проектами и требует нормализации, что, в свою очередь, может привести к потере контекстной информации.

Наконец, необходимо учитывать ограниченность интерпретации данных: длительность выполнения задачи или объём активности разработчиков не всегда напрямую отражают сложность работы или эффективность команды.

5. Заключение

Датасет TAWOS представляет собой значимый ресурс в области программной инженерии, предлагая структурированные и взаимосвязанные данные о задачах, спринтах, коммитах и активности разработчиков. Его комплексная структура позволяет исследовать широкий спектр вопросов — от оценки трудозатрат и прогнозирования сроков до анализа эффективности команд и зрелости процессов разработки.

Проведённый анализ показал, что TAWOS обладает высокой исследовательской ценностью благодаря охвату ключевых аспектов жизненного цикла проектов и возможности интеграции с методами машинного обучения и аналитики данных. Вместе с тем использование датасета требует внимательного подхода к предварительной обработке и интерпретации данных, учитывая их неполноту, вариативность и доменную специфику.

Таким образом, TAWOS может рассматриваться как основа для построения новых моделей прогнозирования трудозатрат, оценки командной производительности и выявления факторов успешности проектов. Его применение способствует развитию данных-ориентированных подходов в исследовании и управлении разработкой программного обеспечения, формируя базу для дальнейших научных и практических достижений в области инженерии ПО.

Метрика статьи

Просмотров:33
Скачиваний:0
Просмотры
Всего:
Просмотров:33