대량의 한글 특허 데이터로 사전학습 (pre-training)을 진행한 DeBERTa-v2 모델입니다.

특허 문서의 abstract, claims, description 위주의 텍스트로 사전학습이 진행되었습니다.

특허 문서 임베딩 계산, 혹은 특허 문서 분류등의 태스크에 활용할 수 있는 한글 언어모델 (Language Model)입니다.

Patent Text Embedding 계산 예시

patent_abstract = '''본 발명은 특허 검색 시스템 및 검색 방법에 관한 것으로, 보다 자세하게는 입력한 검색어의 동의어를 제공, 검색어를 자동으로 번역하여 국가에 상관없이 검색을 가능토록 하거나 대분류, 중분류, 소분류 등 분류한 검색어를 조합하여 검색을 행함으로써, 효율적인 선행기술을 검색할 수 있도록 하는 특허 검색 시스템 및 검색 방법에 관한 것이다.
특허 검색, 유사도, 키워드 추출, 검색식 '''

tokenizer = AutoTokenizer.from_pretrained("LDKSolutions/KR-patent-deberta-large")

encoded_inputs = tokenizer(patent_abstract, max_length=512, truncation=True, padding="max_length", return_tensors="pt")

model = AutoModel.from_pretrained("LDKSolutions/KR-patent-deberta-large")

model.eval()

with torch.no_grad():
  outputs = model(**encoded_inputs)[0][:,0,:] # CLS-Pooling
  print(outputs.shape) # [1, 2048]