文言文 to 现代文
Model description
How to use
使用 pipeline 调用模型:
>>> from transformers import pipeline
>>> model_checkpoint = "supermy/c2m"
>>> translator = pipeline("translation",
model=model_checkpoint,
num_return_sequences=1,
max_length=52,
truncation=True,)
>>> translator("往者不可谏,来者犹可追。")
[{'translation_text': '过 去 的 事 情 不能 劝 谏 , 未来 的 事 情 还 可以 追 回 来 。 如 果 过 去 的 事 情 不能 劝 谏 , 那 么 , 未来 的 事 情 还 可以 追 回 来 。 如 果 过 去 的 事 情'}]
>>> translator("福兮祸所伏,祸兮福所倚。",do_sample=True)
[{'translation_text': '幸 福 是 祸 患 所 隐 藏 的 , 灾 祸 是 福 祸 所 依 托 的 。 这 些 都 是 幸 福 所 依 托 的 。 这 些 都 是 幸 福 所 带 来 的 。 幸 福 啊 , 也 是 幸 福'}]
>>> translator("成事不说,遂事不谏,既往不咎。", num_return_sequences=1,do_sample=True)
[{'translation_text': '事 情 不 高 兴 , 事 情 不 劝 谏 , 过 去 的 事 就 不 会 责 怪 。 事 情 没 有 多 久 了 , 事 情 没 有 多 久 , 事 情 没 有 多 久 了 , 事 情 没 有 多'}]
>>> translator("逝者如斯夫!不舍昼夜。",num_return_sequences=1,max_length=30)
[{'translation_text': '逝 去 的 人 就 像 这 样 啊 , 不分 昼夜 地 去 追 赶 它 们 。 这 样 的 人 就 不 会 忘 记'}]
Here is how to use this model to get the features of a given text in PyTorch:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("supermy/c2m")
model = AutoModelForSeq2SeqLM.from_pretrained("supermy/c2m")
text = "用你喜欢的任何文本替换我。"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
Training data
非常全的文言文(古文)-现代文平行语料,基本涵盖了大部分经典古籍著作。
原始爬取的数据是篇章级对齐,经过脚本分句(按照句号分号感叹号问号划分)以及人工校对,形成共计约96万句对。目录bitext下是文言文-现代文对齐的平行数据。此外,目录source下是文言文单语数据,target下是现代文单语数据,这两个目录下的文件内容按行对齐。
以下为数据统计信息。其中,短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并。
书名 | 句数 |
---|---|
短篇章和资治通鉴 | 348727 |
元史 | 21182 |
北史 | 25823 |
北书 | 10947 |
南史 | 13838 |
南齐书 | 13137 |
史记 | 17701 |
后汉书 | 17753 |
周书 | 14930 |
太平广记 | 59358 |
宋书 | 23794 |
宋史 | 77853 |
徐霞客游记 | 22750 |
新五代史 | 10147 |
新唐书 | 12359 |
旧五代史 | 11377 |
旧唐书 | 29185 |
明史 | 85179 |
晋书 | 21133 |
梁书 | 14318 |
水经注全 | 11630 |
汉书 | 37622 |
辽史 | 9278 |
金史 | 13758 |
陈书 | 7096 |
隋书 | 8204 |
魏书 | 28178 |
总计 | 967257 |
《短篇章和资治通鉴》中各书籍统计如下(此部分数据量不完全准确):
书名 | 句数 |
---|---|
资治通鉴 | 7.95w |
左传 | 1.09w |
大学章句集注 | 86 |
反经 | 4211 |
公孙龙子 | 73 |
管子 | 6266 |
鬼谷子 | 385 |
韩非子 | 4325 |
淮南子 | 2669 |
黄帝内经 | 6162 |
皇帝四经 | 243 |
将苑 | 100 |
金刚经 | 193 |
孔子家语 | 138 |
老子 | 398 |
了凡四训 | 31 |
礼记 | 4917 |
列子 | 1735 |
六韬 | 693 |
六祖坛经 | 949 |
论语 | 988 |
吕氏春秋 | 2473 |
孟子 | 1654 |
梦溪笔谈 | 1280 |
墨子 | 2921 |
千字文 | 82 |
清史稿 | 1604 |
三字经 | 234 |
山海经 | 919 |
伤寒论 | 712 |
商君书 | 916 |
尚书 | 1048 |
世说新语 | 3044 |
司马法 | 132 |
搜神记 | 1963 |
搜神后记 | 540 |
素书 | 61 |
孙膑兵法 | 230 |
孙子兵法 | 338 |
天工开物 | 807 |
尉缭子 | 226 |
文昌孝经 | 194 |
文心雕龙 | 1388 |
吴子 | 136 |
孝经 | 102 |
笑林广记 | 1496 |
荀子 | 3131 |
颜氏家训 | 510 |
仪礼 | 2495 |
易传 | 711 |
逸周书 | 1505 |
战国策 | 3318 |
贞观政要 | 1291 |
中庸 | 206 |
周礼 | 2026 |
周易 | 460 |
庄子 | 1698 |
百战奇略 | 800 |
论衡 | 1.19w |
智囊 | 2165 |
罗织经 | 188 |
朱子家训 | 31 |
抱朴子 | 217 |
地藏经 | 547 |
国语 | 3841 |
容斋随笔 | 2921 |
幼学琼林 | 1372 |
三略 | 268 |
围炉夜话 | 387 |
冰鉴 | 120 |
如果您使用该语料库,请注明出处:https://github.com/NiuTrans/Classical-Modern
感谢为该语料库做出贡献的成员:丁佳鹏、杨文权、刘晓晴、曹润柘、罗应峰。
Training procedure
在英伟达16G显卡训练了 4 天整,共计68 次。
文言文数据集 训练数据. Helsinki-NLP Helsinki-NLP 模型:
### entry and citation info