模型原理 #12

shyzzz521 · 2023-10-18T02:03:52Z

你好，如果有时间的话可以更新一下各个模块的原理图或者原理描述吗，谢谢啦！

shyzzz521 · 2023-10-18T06:19:47Z

训练数据是否可以提供一下，或者描述也可以

yaoxiaoyuan · 2023-10-18T12:22:50Z

原理可以参考如下论文：

Attention Is All You Need
Language Models are Unsupervised Multitask Learners
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

训练数据来自于一些开源数据以及自己爬取的数据，因为版权和隐私问题无法完全公布。你可以自行搜索一些相关论文开源的数据资源。

shyzzz521 · 2023-10-18T15:02:54Z

非常感谢，能否知道tag任务的训练数据格式呢☺

…

---- 回复的原邮件 ---- | 发件人 | ***@***.***> | | 日期 | 2023年10月18日 20:23 | | 收件人 | ***@***.***> | | 抄送至 | ***@***.***>***@***.***> | | 主题 | Re: [yaoxiaoyuan/mimix] 模型原理 (Issue #12) | 原理可以参考如下论文： Attention Is All You Need Language Models are Unsupervised Multitask Learners An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 训练数据来自于一些开源数据以及自己爬取的数据，因为版权和隐私问题无法完全公布。你可以自行搜索一些相关论文开源的数据资源。 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: ***@***.***>

yaoxiaoyuan · 2023-10-19T00:59:57Z

什么格式都可以，只要是合理的输入输出，并且开发好解析数据的代码就可以。可以参考例子example_train_seq2seq.py，这个例子里所用的数据格式为每条数据对应一条json，输入为src字段，输出为trg字段。

shyzzz521 · 2023-10-20T01:46:42Z

ok,谢谢

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

模型原理 #12

模型原理 #12

shyzzz521 commented Oct 18, 2023

shyzzz521 commented Oct 18, 2023

yaoxiaoyuan commented Oct 18, 2023

shyzzz521 commented Oct 18, 2023 via email

yaoxiaoyuan commented Oct 19, 2023

shyzzz521 commented Oct 20, 2023

模型原理 #12

模型原理 #12

Comments

shyzzz521 commented Oct 18, 2023

shyzzz521 commented Oct 18, 2023

yaoxiaoyuan commented Oct 18, 2023

shyzzz521 commented Oct 18, 2023 via email

yaoxiaoyuan commented Oct 19, 2023

shyzzz521 commented Oct 20, 2023