起動方法

U-Compare互換UIMAコンポーネント

UIMAコンポーネントとは、UIMAフレームワークで定義された入出力フォーマット・実行形式・コンポーネント記述メタデータに準拠したものです。UIMAコンポーネントを組み合わせることでワークフローを作成し実行します。

UIMAコンポーネントのうち、U-Compareが定義するデータ型階層(type system)に互換な入出力をもつものをU-Compareコンポーネントと呼んでいます。

UIMAコンポーネントには、ワークフローの最初に配置してデータの生成を行うcollection readerと、データを受け取り情報を追加していくanalysis engineの二種類があります。

実際にはもっと多様なタイプがあります。また、コンポーネントの実行はU-Compare GUI経由、Javaライブラリとしてなどいくつかの方法があります。詳細は開発者ガイドをご覧ください。

日本語コンポーネント一覧

英語および他言語のコンポーネント、言語非依存の汎用コンポーネントについては英語版のComponentsのページをご覧ください。

Collection Readers

コンポーネント名 提供者 開発元 説明
BCCWJ Reader U-Compare 国語研究所, NAIST, U-Compare 国立国語研究所を中心に開発された、代表性を有する大規模日本語書き言葉コーパス「日本語コーパス」の、XML形式記述の形態素および拡張モダリティ情報を読み込む。入力フォルダの指定が必要。
Chaki Reader U-Compare NAIST, U-Compare アノテーションツールChaki (茶器)の拡張Cabocha形式ファイルを読み込む。拡張Cabocha形式
では、Cabochaの扱う形態素と係り受け情報に加え、Group, Link, Segmentによるタグを用いた拡張がなされており、日本語コーパスに含まれている交差した係り受けを表現できる。入力フォルダの指定が必要。
GDA Reader U-Compare 産総研, U-Compare GDA(大域文書修飾)形式のドキュメントを読み込む。入力フォルダの指定がない場合はサンプルファイルを読み込む。
Kyoto Corpus Reader U-Compare 京都大学, U-Compare 京都大学テキストコーパスver.4.0形式のファイルを読み込む。形態素・構文情報・格関係、照応・省略関係、共参照の情報に対応。前者は一般的な非交差係り受け情報であるが、後者はそれと平行して関係情報が追加されており、形態素境界も必ずしも一致しない。京都大学コーパスそのものは、対応する毎日新聞記事を取得してマージ作業を行う必要がある。入力フォルダの指定が必要。
NAIST Text Corpus Reader U-Compare NAIST, U-Compare NAIST(奈良先端科学技術大学院大学)テキストコーパス形式のNTCファイルを読み込む。格・共参照関係・照応関係の情報に対応。
NAIST Text Corpus Kyoto Format Reader U-Compare NAIST, U-Compare NAIST(奈良先端科学技術大学院大学)テキストコーパス形式の京大コーパスフォーマットKNPファイルを読み込む。Mecab処理が前提のため京大コーパスのjuman処理のものと異なる。格・共参照関係・照応関係の情報に対応。

 

Analysis Engines

コンポーネント名 提供者 開発元 説明
Chaki Writer U-Compare NAIST, U-Compare アノテーションツールChaki (茶器)の拡張Cabocha形式ファイルを書き出す。拡張Cabocha形式
では、Cabochaの扱う形態素と係り受け情報に加え、Group, Link, Segmentによるタグを用いた拡張がなされており、日本語コーパスに含まれている交差した係り受けを表現できる。形態素解析が前提。出力フォルダの指定が必要。
Chuunagon Wrapper U-Compare 国語研究所, U-Compare 国立国語研究所で開発されたコーパス検索システム「中納言」で読み込み可能な形式のファイルに変換し保存する。形態素解析が前提。出力先の指定が必要。
Chasen (Native) U-Compare NAIST, U-Compare 係り受け解析器Chasen(茶筅)のラッパー。事前にChasen本体のインストールが必要で、インストール先を指定して実行する。
Cabocha (Native) U-Compare NAIST, U-Compare 係り受け解析器Cabocha(南瓜)のラッパー。事前にCabocha本体のインストールが必要で、インストール先を指定して実行する。
GoSen U-Compare NAIST, U-Compare upcoming.