U-Compare互換UIMAコンポーネント
UIMAコンポーネントとは、UIMAフレームワークで定義された入出力フォーマット・実行形式・コンポーネント記述メタデータに準拠したものです。UIMAコンポーネントを組み合わせることでワークフローを作成し実行します。
UIMAコンポーネントのうち、U-Compareが定義するデータ型階層(type system)に互換な入出力をもつものをU-Compareコンポーネントと呼んでいます。
UIMAコンポーネントには、ワークフローの最初に配置してデータの生成を行うcollection readerと、データを受け取り情報を追加していくanalysis engineの二種類があります。
実際にはもっと多様なタイプがあります。また、コンポーネントの実行はU-Compare GUI経由、Javaライブラリとしてなどいくつかの方法があります。詳細は開発者ガイドをご覧ください。
日本語コンポーネント一覧
英語および他言語のコンポーネント、言語非依存の汎用コンポーネントについては英語版のComponentsのページをご覧ください。
Collection Readers
| コンポーネント名 | 提供者 | 開発元 | 説明 |
|---|---|---|---|
| BCCWJ Reader | U-Compare | 国語研究所, NAIST, U-Compare | 国立国語研究所を中心に開発された、代表性を有する大規模日本語書き言葉コーパス「日本語コーパス」の、XML形式記述の形態素および拡張モダリティ情報を読み込む。入力フォルダの指定が必要。 |
| Chaki Reader | U-Compare | NAIST, U-Compare | アノテーションツールChaki (茶器)の拡張Cabocha形式ファイルを読み込む。拡張Cabocha形式 では、Cabochaの扱う形態素と係り受け情報に加え、Group, Link, Segmentによるタグを用いた拡張がなされており、日本語コーパスに含まれている交差した係り受けを表現できる。入力フォルダの指定が必要。 |
| GDA Reader | U-Compare | 産総研, U-Compare | GDA(大域文書修飾)形式のドキュメントを読み込む。入力フォルダの指定がない場合はサンプルファイルを読み込む。 |
| Kyoto Corpus Reader | U-Compare | 京都大学, U-Compare | 京都大学テキストコーパスver.4.0形式のファイルを読み込む。形態素・構文情報・格関係、照応・省略関係、共参照の情報に対応。前者は一般的な非交差係り受け情報であるが、後者はそれと平行して関係情報が追加されており、形態素境界も必ずしも一致しない。京都大学コーパスそのものは、対応する毎日新聞記事を取得してマージ作業を行う必要がある。入力フォルダの指定が必要。 |
| NAIST Text Corpus Reader | U-Compare | NAIST, U-Compare | NAIST(奈良先端科学技術大学院大学)テキストコーパス形式のNTCファイルを読み込む。格・共参照関係・照応関係の情報に対応。 |
| NAIST Text Corpus Kyoto Format Reader | U-Compare | NAIST, U-Compare | NAIST(奈良先端科学技術大学院大学)テキストコーパス形式の京大コーパスフォーマットKNPファイルを読み込む。Mecab処理が前提のため京大コーパスのjuman処理のものと異なる。格・共参照関係・照応関係の情報に対応。 |
Analysis Engines
| コンポーネント名 | 提供者 | 開発元 | 説明 |
|---|---|---|---|
| Chaki Writer | U-Compare | NAIST, U-Compare | アノテーションツールChaki (茶器)の拡張Cabocha形式ファイルを書き出す。拡張Cabocha形式 では、Cabochaの扱う形態素と係り受け情報に加え、Group, Link, Segmentによるタグを用いた拡張がなされており、日本語コーパスに含まれている交差した係り受けを表現できる。形態素解析が前提。出力フォルダの指定が必要。 |
| Chuunagon Wrapper | U-Compare | 国語研究所, U-Compare | 国立国語研究所で開発されたコーパス検索システム「中納言」で読み込み可能な形式のファイルに変換し保存する。形態素解析が前提。出力先の指定が必要。 |
| Chasen (Native) | U-Compare | NAIST, U-Compare | 係り受け解析器Chasen(茶筅)のラッパー。事前にChasen本体のインストールが必要で、インストール先を指定して実行する。 |
| Cabocha (Native) | U-Compare | NAIST, U-Compare | 係り受け解析器Cabocha(南瓜)のラッパー。事前にCabocha本体のインストールが必要で、インストール先を指定して実行する。 |
| GoSen | U-Compare | NAIST, U-Compare | upcoming. |
