updating organization and adding some files for quest slurm, etc.

2025-05-20 14:39:33 -05:00 · 2025-05-20 14:39:33 -05:00 · 24b75e9964
commit 24b75e9964
parent 529571abb1
23 changed files with 55 additions and 0 deletions
--- a/models/p1-classification.py
+++ b/models/p1-classification.py
@ -0,0 +1,8 @@
+from transformers import AutoModelForCausalLM, AutoTokenizer, OlmoForCausalLM
+import torch
+
+#load in the different models 
+olmo = AutoModelForCausalLLM.from_pretrained("allenai/OLMo-2-0425-1B-Instruct")
+tokenizer = AutoTokenizer.from_pretrained("allenai/OLMo-2-0425-1B-Instruct")
+
+#
--- a/models/p2-first-ir.py
+++ b/models/p2-first-ir.py
@ -0,0 +1,12 @@
+from transformers import AutoModelForCausalLM, AutoTokenizer, OlmoForCausalLM
+import torch
+
+#load in the different models 
+olmo = AutoModelForCausalLLM.from_pretrained("allenai/OLMo-2-0425-1B-Instruct")
+tokenizer = AutoTokenizer.from_pretrained("allenai/OLMo-2-0425-1B-Instruct")
+
+#prompt 
+
+#hand the model the data 
+
+#collect the response
--- a/scripts/quest_srun.sh
+++ b/scripts/quest_srun.sh
@ -0,0 +1,29 @@
+#!/bin/bash
+#SBATCH -A p32852
+#SBATCH -p gengpu
+#SBATCH --gres=gpu:a100:1
+#SBATCH --nodes=2
+#SBATCH --ntasks-per-node=1
+#SBATCH --time=24:00:00
+#SBATCH --mem=64G
+#SBATCH --cpus-per-task=4
+#SBATCH --job-name=SLR_OCR 
+#SBATCH --output=slr_ocr_logs.log
+#SBATCH --mail-type=BEGIN,END,FAIL
+#SBATCH --mail-user=gaughan@u.northwestern.edu
+
+echo "setting up the environment"
+
+module purge
+eval "$(conda shell.bash hook)"
+conda activate olmocr
+
+echo "running the pdf to json ocr conversion"
+
+python -m olmocr.pipeline ./studies_json --pdfs ./studies_pdf/*.pdf
+
+echo "job finished, cleaning up"
+
+conda deactivate
+
+echo "job pau at: $(date)"
--- a/slr_ocr_logs.log
+++ b/slr_ocr_logs.log
@ -0,0 +1,6 @@
+setting up the environment
+running the pdf to json ocr conversion
+ERROR:olmocr.check:pdftoppm is not installed.
+ERROR:olmocr.check:Check the README in the https://github.com/allenai/olmocr/blob/main/README.md for installation instructions
+job finished, cleaning up
+job pau at: Tue May 20 14:29:36 CDT 2025
--- a/studies_pdfs/.DS_Store
+++ b/studies_pdfs/.DS_Store
--- a/studies_pdfs/001-adams.pdf
+++ b/studies_pdfs/001-adams.pdf
--- a/studies_pdfs/002-barcomb.pdf
+++ b/studies_pdfs/002-barcomb.pdf
--- a/studies_pdfs/003-bogart.pdf
+++ b/studies_pdfs/003-bogart.pdf
--- a/studies_pdfs/004-butler.pdf
+++ b/studies_pdfs/004-butler.pdf
--- a/studies_pdfs/005-crowston-shamshurin.pdf
+++ b/studies_pdfs/005-crowston-shamshurin.pdf
--- a/studies_pdfs/006-franke.pdf
+++ b/studies_pdfs/006-franke.pdf
--- a/studies_pdfs/007-gamalielsson.pdf
+++ b/studies_pdfs/007-gamalielsson.pdf
--- a/studies_pdfs/008-geiger.pdf
+++ b/studies_pdfs/008-geiger.pdf
--- a/studies_pdfs/009-hsieh.pdf
+++ b/studies_pdfs/009-hsieh.pdf
--- a/studies_pdfs/010-hu.pdf
+++ b/studies_pdfs/010-hu.pdf
--- a/studies_pdfs/011-jahanshahi.pdf
+++ b/studies_pdfs/011-jahanshahi.pdf
--- a/studies_pdfs/012-jensen-scacchi.pdf
+++ b/studies_pdfs/012-jensen-scacchi.pdf
--- a/studies_pdfs/013-klug.pdf
+++ b/studies_pdfs/013-klug.pdf
--- a/studies_pdfs/014-norskov.pdf
+++ b/studies_pdfs/014-norskov.pdf
--- a/studies_pdfs/015-santos.pdf
+++ b/studies_pdfs/015-santos.pdf
--- a/studies_pdfs/016-sojer-henkel.pdf
+++ b/studies_pdfs/016-sojer-henkel.pdf
--- a/studies_pdfs/017-wessel.pdf
+++ b/studies_pdfs/017-wessel.pdf
--- a/studies_pdfs/018-yin.pdf
+++ b/studies_pdfs/018-yin.pdf