Обзор датасета TAWOS для анализа трудозатрат и процессов разработки ПО
Обзор датасета TAWOS для анализа трудозатрат и процессов разработки ПО
Аннотация
Настоящая статья представляет собой детальный обзор открытого набора данных TAWOS, предназначенного для анализа трудозатрат и процессов разработки программного обеспечения. Дается комплексное описание структуры и содержания датасета, который агрегирует информацию из 12 открытых репозиториев систем управления проектами и включает данные о 458 тысячах задач, полученных из 39 проектов с открытым исходным кодом от таких организаций, как Apache, MongoDB, Atlassian и других.
Основное внимание уделяется реляционной структуре набора данных. Подробно описываются ключевые сущности, такие как Issue (задачи с их атрибутами), Comment (комментарии к задачам), Change_Log (история изменений), Component (компоненты ПО), Version (версии), Sprint (спринты) и другие, а также связи между ними. Отмечается, что датасет предоставляет многогранные данные, охватывающие метаданные задач, временные затраты, активность участников и ход итераций.
В статье также рассматриваются потенциальные сценарии практического применения TAWOS, включая прогнозирование трудозатрат и сроков выполнения задач, анализ производительности команд и выявление закономерностей в процессах разработки. При этом подчеркиваются существующие ограничения набора данных, такие как его формирование исключительно на основе публичных проектов, неполнота и вариативность метаданных.
1. Введение
Современная разработка программного обеспечения характеризуется высокой динамичностью процессов, разнообразием используемых методологий и возрастанием роли данных в управлении проектами. Для повышения эффективности планирования, оценки трудозатрат и анализа производительности команд все чаще применяются подходы, основанные на анализе реальных проектных данных. В этой связи особую ценность приобретают открытые датасеты, отражающие реальные процессы разработки, взаимодействие участников и изменение состояния задач в ходе жизненного цикла проекта.
Одним из таких источников является открытый набор данных TAWOS. Он объединяет данные о задачах, спринтах, коммитах и активности участников из систем управления проектами Jira, предоставляя исследователям возможность изучать закономерности распределения трудозатрат, прогнозировать сроки выполнения задач и оценивать эффективность командных процессов. Настоящая статья посвящена анализу структуры и возможностей применения датасета TAWOS, а также рассмотрению его ограничений и научной значимости для исследований в области программной инженерии
, , .2. Методы и принципы исследования
В рамках данного обзора использовался метод структурного и сравнительного анализа открытых датасетов программной инженерии. Исследование включает:
- анализ схемы данных и реляционных связей датасета TAWOS;
- классификацию сущностей и их атрибутов с точки зрения задач анализа трудозатрат;
- сопоставление TAWOS с другими широко используемыми наборами данных;
- обобщение опубликованных и типовых практик использования аналогичных датасетов в прикладных и исследовательских проектах.
TAWOS рассматривается как база данных, ориентированная на анализ Agile-процессов. Основное внимание уделяется его применимости для количественных исследований: прогнозирования трудозатрат, анализа производительности команд и изучения динамики разработки.
3. Основные результаты
Датасет TAWOS основан на данных систем учета времени, использованных при разработке следующими командами и компаниями:
- Apache;
- Appcelerator;
- Atlassian;
- DNN Tracker;
- Hyperledger;
- Lsstcorp;
- Lyrasis;
- MongoDB;
- Moodle;
- Mulesoft;
- Sonatype;
- Spring.
Датасет включает в себя данные о 458 тысячах задач из 39 проектов с открытым исходным кодом, полученных из 12 открытых репозиториев с данными системы учета времени Jira. Набор данных TAWOS представлен в виде реляционной базы данных, которую можно загрузить и установить в систему управления базами данных MySQL.
На рисунке 1 представлена диаграмма сущностей датасета и отношений между ними.

Диаграмма сущностей датасета, их полей и отношений между ними
Таблица 1 - Сущности, составляющие датасет TAWOS
Название сущности | Назначение |
Issue | Основная сущность, хранящая различные извлеченные, производные и вычисляемые характеристики каждой задачи. |
Comment | Содержит каждый комментарий, написанный к задаче, включая время создания и идентификатор автора комментария. Персональные данные заменены тегами. |
Change_Log | Хронологически упорядоченные изменения атрибутов задач. Каждая запись содержит предыдущее и новое значение атрибута. |
Issue_Components | Промежуточная таблица, связывающая задачи и компоненты (связь многие-ко-многим). |
Component | Хранит информацию о компонентах, из которых состоит каждый программный продукт. |
Issue_Links | Содержит связи между задачами, которые указывают на их взаимосвязь (например, дублирование, зависимость или блокировка). |
User | Содержит уникальных пользователей, которые взаимодействовали с проектами в наборе данных. Идентификатор пользователя сгенерирован БД и не связан с ID в исходном репозитории. |
Affected_Version | Промежуточная таблица, связывающая задачи с версиями, в которых была обнаружена ошибка или проблема. |
Fix_Version | Промежуточная таблица, связывающая задачи с версиями, в которых функция была исправлена какая-либо ошибка. |
Version | Хранит информацию о версиях разрабатываемого ПО (имя, описание, дата выпуска). |
Project | Хранит информацию о проектах, включенных в базу данных. |
Repository | Хранит информацию о репозиториях, включенных в базу данных. |
Sprint | Хранит информацию о спринтах (итерациях) в процессе разработки, включая состояние, даты начала и окончания. |
Стоит отметить, что значения категориальных полей сущности Issue могут варьироваться от проекта к проекту. Это означает, что для обозначения статусов, типов и категорий в одном проекте может использоваться один набор значений, а в другом проекте — иной.
Для лучшего понимания исследовательской ценности TAWOS целесообразно рассмотреть его в сравнении с другими известными датасетами:
1. PROMISE Repository — один из наиболее известных репозиториев датасетов программной инженерии. Содержит данные о дефектах, метриках кода и проектах, но практически не включает детальную информацию о процессах Agile, спринтах и трудозатратах .
2. GHTorrent — крупный датасет, агрегирующий данные GitHub (репозитории, issues, pull requests). Обладает масштабом, но не содержит структурированной информации о спринтах, оценках трудозатрат и Agile-итерациях. Поддержка остановлена в 2019 году
.Во многих работах TAWOS используется в качестве основного источника эмпирических данных для анализа Agile-проектов и разработки моделей машинного обучения. Например, в репозитории проекта перечислены исследования, опирающиеся на данные TAWOS, такие как:
1. Анализ эффективности использования story points для оценки трудозатрат, где использовались данные о задачах из TAWOS для изучения соответствия оценок фактическим трудозатратам в Agile-разработке
.2. Исследование методов кластеризации для оценки усилий по задачам, в котором TAWOS служил исходным набором задач для обучения и сравнения методов группировки
.3. Эксперименты с глубоким обучением для оценки усилий, в частности в работе по изучению эффективности Deep-SE и его репликации с использованием TAWOS (31 960 задач), где датасет использовался для оценки точности предсказаний ML-моделей внутри- и между-проектными сценариями
.Помимо академических исследований, TAWOS применяется и в современных задачах машинного обучения. Так, репликационный пакет исследования “Impact of Request Formats on Effort Estimation: Are LLMs Different than Humans?” включает код, который извлекает данные из MySQL-базы TAWOS (user stories и описания задач) и использует их для сравнения моделей оценки усилий, интегрируя их с LLM-моделями (GPT, Gemini, LLAMA) для генерации предсказаний трудозатрат
.Другое исследование, опубликованное в журнале Knowledge-Based Systems, использует TAWOS для классификации уровней серьёзности багов с помощью ансамблевых ML и NLP-методов, включая XGBoost, LightGBM и CatBoost. В этом случае данные TAWOS использовались для извлечения текстовых и структурных признаков из задач и комментариев с целью улучшения точности автоматической классификации
.Все эти примеры показывают, что TAWOS не ограничивается только описательной статистикой, но служит основой для обучения моделей, сравнительного анализа методов оценки усилий, автоматизации классификационных задач и разработки репликационных пакетов с реальными данными. Такая практика демонстрирует перспективность TAWOS как общего стандартизированного источника данных для анализа жизненного цикла Agile-проектов и применения методов Data-Driven Software Engineering.
4. Обсуждение
Благодаря многоаспектному охвату данных — от метаданных задач и времени их исполнения до активности участников и хода спринтов — TAWOS может использоваться для анализа производительности команд разработки. Сопоставление трудозатрат с параметрами задач позволяет выявлять закономерности в распределении нагрузки, оценивать эффективность распределения ролей и прогнозировать возможные отклонения от плановых сроков. Кроме того, наличие информации о связях между задачами и коммитами открывает возможности для анализа соответствия плановых и фактических результатов разработки.
Одним из перспективных направлений применения датасета является построение и обучение моделей прогнозирования сроков и трудозатрат. Используя текстовые описания задач, историю спринтов и метрики участников, можно создавать алгоритмы машинного обучения для автоматической оценки сложности задач и предсказания длительности их выполнения. Это особенно актуально в контексте современных подходов к оценке трудозатрат, где используются большие языковые модели (LLM)
, , .TAWOS также предоставляет основу для анализа качества процессов разработки и зрелости команд. Сопоставление данных об ошибках, комментариях и кодовых изменениях позволяет оценивать качество коммуникаций, выявлять «узкие места» в процессах ревью и интеграции, а также исследовать факторы, влияющие на устойчивость и успех проектов. Такие исследования могут способствовать построению моделей зрелости процессов и выявлению зависимостей между организационной культурой и эффективностью выполнения задач
, .Наконец, датасет может использоваться для изучения факторов успешности программных проектов в целом. Сравнение метрик различных команд и проектов — например, объёмов задач, средней продолжительности их выполнения и частоты релизов — позволяет выявлять ключевые детерминанты успешности и устойчивости процессов. Это делает TAWOS универсальной исследовательской платформой, обеспечивающей как количественный, так и качественный анализ разработки программного обеспечения
, .Несмотря на широкий спектр возможностей анализа, датасет TAWOS обладает рядом ограничений, которые необходимо учитывать. Прежде всего, он формируется на основе данных из публичных репозиториев и проектных трекеров, что может приводить к неполному охвату типов проектов и практик разработки. Такая выборка ограничивает репрезентативность данных и снижает возможность обобщения результатов на другие контексты и методологии.
Также существенным ограничением является неполнота и вариативность метаданных. В ряде случаев отсутствуют оценки трудозатрат, сроки или комментарии, что усложняет построение корректных выборок и требует дополнительной очистки данных. Кроме того, логи активности отражают лишь формализованные действия пользователей, не учитывая неформальные взаимодействия или внешние инструменты, используемые в процессе работы.
Значительную сложность создаёт и разнородность форматов данных. Поскольку информация собрана из различных проектов, использующих разные подходы к ведению трекеров, структура и семантика полей могут отличаться. Это осложняет сопоставление данных между проектами и требует нормализации, что, в свою очередь, может привести к потере контекстной информации.
Наконец, необходимо учитывать ограниченность интерпретации данных: длительность выполнения задачи или объём активности разработчиков не всегда напрямую отражают сложность работы или эффективность команды.
5. Заключение
Датасет TAWOS представляет собой значимый ресурс в области программной инженерии, предлагая структурированные и взаимосвязанные данные о задачах, спринтах, коммитах и активности разработчиков. Его комплексная структура позволяет исследовать широкий спектр вопросов — от оценки трудозатрат и прогнозирования сроков до анализа эффективности команд и зрелости процессов разработки.
Проведённый анализ показал, что TAWOS обладает высокой исследовательской ценностью благодаря охвату ключевых аспектов жизненного цикла проектов и возможности интеграции с методами машинного обучения и аналитики данных. Вместе с тем использование датасета требует внимательного подхода к предварительной обработке и интерпретации данных, учитывая их неполноту, вариативность и доменную специфику.
Таким образом, TAWOS может рассматриваться как основа для построения новых моделей прогнозирования трудозатрат, оценки командной производительности и выявления факторов успешности проектов. Его применение способствует развитию данных-ориентированных подходов в исследовании и управлении разработкой программного обеспечения, формируя базу для дальнейших научных и практических достижений в области инженерии ПО.
