updated some DiD data cleaning

2024-04-05 22:17:28 -05:00 · 2024-04-05 22:17:28 -05:00 · d3547b1f91
commit d3547b1f91
parent 5c8b0af800
3 changed files with 39 additions and 4 deletions
--- a/R/.RData
+++ b/R/.RData
--- a/R/didAnalyses.R
+++ b/R/didAnalyses.R
@ -1,4 +0,0 @@
-library(tidyverse)
-
-#set wd 
-try(setwd(dirname(rstudioapi::getActiveDocumentContext()$path)))
--- a/R/didCleaning.R
+++ b/R/didCleaning.R
@ -0,0 +1,39 @@
+library(tidyverse)
+
+#set wd, read in data
+try(setwd(dirname(rstudioapi::getActiveDocumentContext()$path)))
+readme_df <- read_csv("../final_data/deb_readme_did.csv")
+contributing_df <- read_csv("../final_data/deb_contrib_did.csv")
+
+#preprocessing for readme_df
+colnames(readme_df) <- c("upstream_vcs_link", "event_date", "event_hash", "before_all_ct", "before_mrg_ct", "after_all_ct", "after_mrg_ct", "before_auth_new", "after_commit_new", "after_auth_new", "before_commit_new")
+col_order <- c("upstream_vcs_link", "event_date", "event_hash", "before_all_ct", "after_all_ct", "before_mrg_ct", "after_mrg_ct", "before_auth_new", "after_auth_new", "before_commit_new",  "after_commit_new")
+readme_df <- readme_df[,col_order]
+readme_df$ct_before_all <- str_split(gsub("[][]","", readme_df$before_all_ct), ", ")
+readme_df$ct_after_all <- str_split(gsub("[][]","", readme_df$after_all_ct), ", ")
+readme_df$ct_before_mrg <- str_split(gsub("[][]","", readme_df$before_mrg_ct), ", ")
+readme_df$ct_after_mrg <- str_split(gsub("[][]","", readme_df$after_mrg_ct), ", ")
+drop <- c("before_all_ct", "before_mrg_ct", "after_all_ct", "after_mrg_ct")
+readme_df = readme_df[,!(names(readme_df) %in% drop)]
+
+#preprocessing for contributing_df
+
+
+# test <- readme_df$cnt_before_all
+# as.numeric(unlist(test[1]))
+# test_two <- c()
+# iterator <- 0
+# for (entry in test) {
+#   readme_df$cnt_before_all[iterator] <- as.numeric(unlist(entry))
+#   print(as.numeric(unlist(entry)))
+#   iterator <- iterator + 1
+# }
+# test_two
+#Yes, need to expand the dataframe, but again, for the sake of clarity, do not want to until analysis step
+new_test <- head(readme_df, 1)
+longer <- new_test |> 
+  pivot_longer(cols = starts_with("ct"),
+               names_to = "window",
+               values_to = "count") |>
+  unnest(count) 
+longer