Recruit 's AI Research Institute는 고속 고속 놀이터 사이트어 분석을 가능하게하는 놀이터 사이트 자연 언어 처리 라이브러리 인 "Ginza 버전 4.0"을 출시합니다.

2020 년 8 월 17 일
Recruit Co., Ltd.
기타

. 연구소.

놀이터 사이트 자연 언어 처리 라이브러리 "Ginza"

놀이터 사이트

.

"Ginza"는 신입 사원의 연구 개발 기관인 Megagon Labs가 개발하고 제공하는 연구원, 기업 엔지니어 및 데이터 과학자를위한 오픈 소스 라이브러리입니다. 이 제품은 누구나 무료로 사용되도록 설계되었으며 비즈니스 분야에서 널리 사용되도록 설계되었으며, 1 단계 소개, 고속, 고정밀 분석 프로세싱 및 단어 의존적 구조 분석 수준에서 국제화 지원이 특징입니다.

2020 년 1 월 버전 3.0을 출시 한 이후, 이제 6 개월 만에 23,000 번 이상 다운로드되었으며, 보편적 인 의존성을위한 놀이터 사이트 분석 시스템으로서 학술 기관뿐만 아니라 애플리케이션에서 강력하고 유연 할 수있는 실용적인 도서관이 사용했습니다 (UD, *1).

"Ginza 버전 4.0"의 주요 기능 -고속 고속 놀이터 사이트 분석 -.

1. 가장 빠르고 정확한 분석 가능

, 최첨단 머신 러닝 기술을 통합하고 산업용으로 빠르고 가벼운 다국어 자연 언어 처리 프레임 워크 인 Spacy 버전 2.3은 Megagon Labs가 게시 한 공식 놀이터 사이트어 호환 모델을 출시했습니다. Spacy 버전 2.3의 프레임 워크 아키텍처에 맞게 라이브러리를 재 설계함으로써 Ginza 4.0은 그 어느 때보 다 빠르고 정확한 분석을 허용합니다.

2. 놀이터 사이트 조항 구조도 지원

Spacy의 다국어 분석 프레임 워크를 사용하여 놀이터 사이트어를 포함한 15 개 언어를 지원하는 모든 언어는 단순히 자원을 교체하여 구문 구조를 분석하여 사람 이름, 조직 이름, 제품 이름 및 숫자와 같은 고유 한 표현을 추출 할 수 있습니다. 또한 Ginza 버전 4.0에는 UD 시스템에 Megagon Labs의 고유 한 튜닝이 포함 된 놀이터 사이트 분석 모델이 장착되어있어 놀이터 사이트 문법에 뿌리를 둔 분석 기능을 더욱 강화시켜 놀이터 사이트 조항을 기반으로 분석 결과를보다 쉽게 ​​얻을 수 있습니다.

놀이터 사이트 조항 구조와도 호환

기존 UD 시스템에서 종속성은 단어 (토큰)로 정의되었으며 "Ginza 버전 4.0"은 클레이즈 내 주제에 해당하는 단어를 구별하고 학습하여 용어로 의존성 구조를 파악할 수 있습니다.

3. 복합 단어를 구분하는 세 가지 방법 중에서 선택할 수도 있습니다

. Sudachipy (※ 3) 기능을 사용하며 세 가지 방법 중에서 선택할 수 있습니다.

Megagon Labs는 Ginza를 추가로 업데이트하여 놀이터 사이트어의 더 빠르고 정확한 자연 언어 처리를 가능하게하고 모든 산업에서 자연 언어 처리의 사용을 촉진 할 것입니다.

*1 일관된 문법과 언어 시스템의 일부를 통해 전 세계의 다양한 언어를 분석하는 것을 목표로하는 국제 학술 프로젝트
*2 국립 놀이터 사이트어 연구소 (National Institute of Japanese and Research)가 발표 한 UD_Japanese-GSD v2.6에 고유 한 표현 레이블이 추가되었으며 2020 년 5 월 Megagon Labs가 발표 한 코퍼스 (공식 이름 : UD_Japanese-GSD v2.6-ne).
*3 Works Tokushima Artificial Intelligence NLP Research Institute에서 개발 한 오픈 소스 소프트웨어, AI Research Institute, Works Applications Co., Ltd.

(c) Co., Ltd.