banner
andrewji8

Being towards death

Heed not to the tree-rustling and leaf-lashing rain, Why not stroll along, whistle and sing under its rein. Lighter and better suited than horses are straw sandals and a bamboo staff, Who's afraid? A palm-leaf plaited cape provides enough to misty weather in life sustain. A thorny spring breeze sobers up the spirit, I feel a slight chill, The setting sun over the mountain offers greetings still. Looking back over the bleak passage survived, The return in time Shall not be affected by windswept rain or shine.
telegram
twitter
github

Pythonの中文分かち書きツールキットは、Jiebaをはるかに上回る正確さです。

中文分割、それは深遠で謎めいた技術です。人間にとっても AI にとっても同じです。

北京大学は、PKUSeg という名前の Python ベースの中文分割ツールキットをオープンソース化しました。

このツールキットの分割精度は、THULAC と JIEBA という 2 つの重要な競合ツールをはるかに上回っています。
さらに、PKUSeg は多くの分野での分割をサポートし、新しい注釈データを使用してモデルをトレーニングすることもサポートしています。
精度の比較
今回の競技では、PKUSeg の対戦相手は 2 人います:

1 人は清華大学の THULAC、もう 1 人は「最高の中文分割コンポーネントを作る」という結巴分割です。これらは現在の主流の分割ツールです。

テスト環境は Linux で、テストデータセットは MSRA(ニュースデータ)と CTB8(混合型テキスト)です。

結果は以下の通りです:

image
競技で使用された評価基準は、第 2 回国際漢語分割評価競技の分割評価スクリプトです。

F スコアとエラーレートの 2 つの指標において、PKUSeg は他の 2 つの競合ツールよりも明らかに優れています。

使用方法
事前学習済みモデル
PKUSeg は 3 つの事前学習済みモデルを提供しています。それぞれ異なるタイプのデータセットでトレーニングされています。

1 つは MSRA(ニュースコーパス)でトレーニングされたモデルです:
https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

2 つ目は CTB8(ニューステキストとウェブテキストの混合コーパス)でトレーニングされたモデルです:
https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

3 つ目は Weibo(ウェブテキストコーパス)でトレーニングされたモデルです:
https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ
必要に応じて、異なるモデルを選択できます。

また、新しい注釈データを使用して新しいモデルをトレーニングすることもできます。

コード例:

# コード例1        デフォルトのモデルとデフォルトの辞書を使用して分割
import pkuseg
seg = pkuseg.pkuseg()                #デフォルトの設定でモデルをロード
text = seg.cut('我爱北京天安门')    #分割を実行
print(text)
# コード例2        ユーザー定義辞書の設定
import pkuseg
lexicon = ['北京大学', '北京天安门']    #ユーザー辞書の単語を分割しないようにする
seg = pkuseg.pkuseg(user_dict=lexicon)    #モデルをロードし、ユーザー辞書を指定
text = seg.cut('我爱北京天安门')        #分割を実行
print(text)
# コード例3
import pkuseg
seg = pkuseg.pkuseg(model_name='./ctb8')    #ユーザーがctb8モデルをダウンロードして'./ctb8'ディレクトリに配置したと仮定し、model_nameを設定してそのモデルをロード
text = seg.cut('我爱北京天安门')            #分割を実行
print(text)

新しいモデルをトレーニングする場合:

# コード例5
import pkuseg
pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20)    #トレーニングファイルは'msr_training.utf8'、テストファイルは'msr_test_gold.utf8'、モデルは'./models'ディレクトリに保存し、20のスレッドでモデルをトレーニング

より詳細な使用方法については、文末のリンク先にアクセスしてください。
試してみてください
PKUSeg の作者は 3 人います。Ruixuan Luo(罗睿轩)、Jingjing Xu(许晶晶)、Xu Sun(孙栩)です。

このツールキットの誕生は、ACL の論文に参加した 2 人の貢献に基づいています。

高い精度を持つこのツールを試してみませんか?

GitHub リンク:
https://github.com/lancopku/PKUSeg-python

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。