library(dplyr)
library(lubridate)
library(rdd)
library(stringr)

contributing_count_data_filepath <- "/mmfs1/gscratch/comdata/users/mjilg/govdoc-cr-data/final_data/CONTRIBUTING_weekly_count_data.csv"
contributing_count_df = read.csv(contributing_count_data_filepath, header = TRUE) 

contributing_topic_dist_filepath <- "text_analysis/020125_CONTRIBUTING_file_topic_distributions.csv"
contributing_topics_df = read.csv(contributing_topic_dist_filepath, header = TRUE) 

window_num <- 5
contributing_count_df <- contributing_count_df |>
  filter(week_index >= (- window_num) & week_index <= (window_num)) |>
  mutate(scaled_age = scale(age)) |>
  mutate(scaled_age_at_commit = scale(age_at_commit))|>
  mutate(log1p_count = log1p(commit_count))

summed_data <- contributing_count_df |>
  filter(before_after == 1) |>
  group_by(project_id) |>
  summarise_at(vars(commit_count), list(summed_count=sum))

contributing_topics_df <- contributing_topics_df |>
  mutate(project_id = sapply(str_split(filename, "_hullabaloo_"), `[`, 1)) |>
  mutate(project_id = ifelse(filename=="_vcr_vcr_CONTRIBUTING.md", "vcr_vcr", project_id)) |>
  mutate(project_id = ifelse(filename=="marshmallow-code_marshmallow.git_CONTRIBUTING.rst", "marshmallow-code_marshmallow.git", project_id))

merged_df <- inner_join(summed_data, contributing_topics_df, by="project_id")
merged_df$logged_commits <- log1p(merged_df$summed_count)
  
library(MASS)

commit_outcome_model <- glm.nb(logged_commits ~ 0 + t0 + t1 + t2 + t3 + t4, data=merged_df)
qqnorm(residuals(commit_outcome_model))
summary(commit_outcome_model)
saveRDS(commit_outcome_model, "020325_commit_topic_model.rda")