gavin.chen 1 жил өмнө
parent
commit
e90b35ad85
2 өөрчлөгдсөн 92 нэмэгдсэн , 0 устгасан
  1. 27 0
      README.md
  2. 65 0
      tools/apply_gpt_outputs.md

+ 27 - 0
README.md

@@ -143,6 +143,33 @@ class TestModule {
 - 此脚本通过翻译词条的 key 值匹配 excel 中出现的翻译值,直接更新到 json 文件中
 - 不会对 json 文件内已存在的词条做增删操作,仅更新
 
+# 基于 Chat-GPT 的翻译优化工作流
+
+## 将 json 转为 markdown 表格
+
+- 当前目录下运行
+- `python .\tools\JSON2MD.md`
+- 此脚本会将所有翻译模块输出为 markdown 表格,输出到当前目录下的 `md-outputs` 文件夹内
+
+## 将 markdown 表格发送给 Chat-GPT 进行翻译优化
+
+- 当前目录下运行
+- `python .\tools\chat_gpt_process.md`
+- 此脚本会将 `md-outputs` 文件夹内的所有 markdown 表格发送给 Chat-GPT 进行翻译优化,优化结果会输出到当前目录下的 `gpt-outputs` 文件夹内
+- 全部运行一遍用时 > 40min,可以删除部分不需要优化的文件来节省时间
+- ❗ 注意:运行前需要设置环境变量 `OPENAI_API_KEY` 否则无权调用 ❗ 
+- ❗ 运行该脚本前可以针对不同需求修改 `prompt.md` 内提示词以获得更优质结果
+- ❗ 如果需要变更模型直接修改 `chat_gpt_process.md` 内的 `model` 变量即可(当前默认 gpt-3.5-turbo)
+
+## 应用 Chat-GPT 优化后的翻译结果
+
+- 当前目录下运行
+- `python .\tools\apply_gpt_outputs.md`
+- 此脚本会将 `gpt-outputs` 文件夹内的所有优化结果应用到 `assets` 文件夹内的 json 文件中
+- 进入 Git 的差异对比可以人工择优接受修改
+
+
+
 # i18n 词典可视化查看器
 
 ## 启动

+ 65 - 0
tools/apply_gpt_outputs.md

@@ -0,0 +1,65 @@
+# %%
+import os
+import re
+import json
+import pandas as pd
+
+# 第一步:从JSON文件中加载所有模块
+with open('assets/en_US.json', encoding='utf-8') as f:
+    data = json.load(f)
+
+json_modules = {}
+for key, value in data.items():
+    json_modules[key] = value
+print(f"已加载 {len(json_modules)} 个模块\n")
+
+for filename in os.listdir('gpt-outputs'):
+    if not filename.endswith('.md'):
+        continue
+
+    # 从文件名中提取模块名称
+    module_name = os.path.splitext(filename)[0].split('-')[0]
+
+    # 加载模块数据
+    module_data = json_modules[module_name]
+
+    # print(f"正在处理模块 {module_name} 内容:{module_data}...")
+    # 提取表格数据并更新模块数据
+    with open(os.path.join('gpt-outputs', filename), 'r', encoding='utf-8') as f:
+        content = f.read()
+
+    print(f"正在处理文件 {filename} ...")
+
+    table_rows = re.findall(r'\|(.+)\|', content)
+
+    cleaned_rows = []
+    for row in table_rows:
+        cells = [cell.strip() for cell in row.split('|')]
+        if len(cells) != 4:
+            continue
+        cleaned_cells = [cells[0], cells[3]]
+        cleaned_rows.append(cleaned_cells)
+
+    df = pd.DataFrame(cleaned_rows, columns=['词条', '优化后'])
+
+    # 补全此处代码,将df中的数据更新到 module_data 中
+    for index, row in df.iterrows():
+        key = row['词条']
+        value = row['优化后']
+        # 如果不存在对应的词条,则跳过
+        if key not in module_data:
+            continue
+        if module_data[key] != value:
+            print(f"更新 {module_data[key]} -> {value} ")
+            module_data[key] = value
+    json_modules[module_name] = module_data
+
+    print(f"✅ 已更新模块 {module_name}\n")
+
+print("正在写回数据...")
+
+# 将更新后的模块数据写回JSON文件中
+with open('assets/en_US.json', 'w', encoding='utf-8') as f:
+    json.dump(json_modules, f, indent=2, ensure_ascii=False)
+
+print("替换已完成")