这是一个用于获取、翻译和分类 ArXiv 论文的工具。它可以自动获取最新的论文,将其翻译成中文,并根据预定义的类别进行分类,最终生成一个格式化的 Markdown 文档。
- 论文获取:通过 ArxivFetcher 自动获取最新的 ArXiv 论文
- 中英翻译:使用 BytedanceTranslator 将论文标题和摘要翻译成中文
- 论文分类:使用 BytedanceClassifier 将论文按主题自动分类
- Markdown 输出:生成格式化的 Markdown 文档,包含分类、论文链接和摘要
pip install -r requirements.txt
参考字节跳动官方示例配置环境变量:
export ARK_API_KEY="YOUR_API_KEY" # linux / macos
$env:ARK_API_KEY = "YOUR_API_KEY" # windows powershell
set ARK_API_KEY=YOUR_API_KEY # windows cmd
python codes/main.py
程序会生成一个 output.md
文件,包含分类后的论文列表。
main.py
: 主程序入口arxiv_fetcher.py
: 负责从 ArXiv 获取论文bytedance_translator.py
: 处理英文到中文的翻译bytedance_classifier.py
: 处理论文分类bytedance_ai_client.py
: AI API 客户端
- 需要有效的 API 密钥和访问权限
- 翻译和分类功能依赖于 AI 服务的可用性
- 建议添加错误处理和重试机制
- 可以根据需要调整分类类别
- 输出文件使用 UTF-8 编码,确保正确显示中文
- 添加缓存机制减少 API 调用
- 添加更多的论文源
- 支持自定义分类规则
- 添加定时任务自动更新
- 添加 Web 界面
本项目采用 CC BY-NC-SA 4.0 协议。这意味着您可以:
- 复制、分发和传播本作品
- 修改、转换或以本作品为基础进行创作
- 署名:您必须按照作者或者许可人指定的方式对作品进行署名
- 非商业性使用:您不得将本作品用于商业目的
- 相同方式共享:如果您改变、转换本作品或者以本作品为基础进行创作,您只能采用与本协议相同的许可协议发布基于本作品的演绎作品
- 您不必因为公共领域的作品要素而遵守许可协议,或者您的使用被可适用的例外或限制所允许
- 不提供担保。许可协议可能不会给与您意图使用的所必须的所有许可。例如,其他权利比如形象权、隐私权或人格权可能限制您如何使用作品