updating human sampling

2025-10-06 09:37:06 -07:00 · 2025-10-06 09:37:06 -07:00 · b982973f37
commit b982973f37
parent a14b08cfd8
2 changed files with 55688 additions and 54367 deletions
--- a/dsl/100625_human_info_sample.csv
+++ b/dsl/100625_human_info_sample.csv
--- a/dsl/human_sampling.R
+++ b/dsl/human_sampling.R
@ -3,11 +3,11 @@ library(tidyverse)
 main_csv <-"~/analysis_data/100325_unified_phab.csv"
 main_df <- read.csv(main_csv, header = TRUE) 
-set.seed(1871) # For reproducibility
+set.seed(1893) # For reproducibility
 sampled_df <- main_df %>%
  group_by(source) %>%
-  mutate(sampled_TaskPHID = TaskPHID %in% sample(unique(TaskPHID), 35)) %>%
+  mutate(sampled_TaskPHID = TaskPHID %in% sample(unique(TaskPHID), 40)) %>%
  ungroup() %>%
  filter(sampled_TaskPHID) %>%
  select(-sampled_TaskPHID) 
@ -16,7 +16,7 @@ labeling_sampled_df <- sampled_df %>%
  group_by(source) %>%
  mutate(
    verification_sample = if_else(
-      TaskPHID %in% sample(unique(TaskPHID), min(7, length(unique(TaskPHID)))), 1L, 0L
+      TaskPHID %in% sample(unique(TaskPHID), min(8, length(unique(TaskPHID)))), 1L, 0L
    )
  ) %>%
  ungroup()
@ -41,5 +41,6 @@ sentence_level_sample <- labeling_sampled_df |>
 table(sentence_level_sample$verification_sample)
 (nrow(sentence_level_sample) / 293) * 1.5
 length(unique(sentence_level_sample$TaskPHID))
 write.csv(sentence_level_sample, "100625_human_info_sample.csv", row.names = FALSE)