用新闻数据集从头开始进行全词mask预训练bert