MENUCLOSE
会員限定ページ CONTACT
JP EN

JP EN
会員限定
ページ
CONTACT

第3章 力任せ法

ホーム > 第3章 力任せ法

第3章 力任せ法

中西 明日輝

3.1 はじめに

前章までに説明があるように、JATS XMLは数多あるXMLスキーマの一種です。XMLは単なるテキストの形式にすぎませんから、JATS XMLに準拠した文書は、「メモ帳」などの適当なテキストエディタを用いて記述することが可能です。

本章では、「メモ帳」などを用いて、半ば“力任せ”に学術論文をJATS XMLに準拠した形式に変換する方法を紹介します。

本項で紹介する方法は、あくまで理屈の上では実行可能であるという手法であり、後述される他の方法に比べて、その効率性や利便性において劣ることはあらかじめ申し上げておきます。しかし、本項で紹介する方法は、JATS XML準拠の文書を作成するもっとも素朴な方法であり、知識として体得することは、後述する他の方法の仕組みや流れを理解するための参考となることでしょう。

3.2 論文原稿の用意

JATS XMLは、学術論文の記述に特化したXMLスキーマであり、その形式に準拠した文書を作成するには、おのずとその変換元となる学術論文が必要となります。通常、これらの論文は「.docx形式(ワープロソフト「Microsoft Word」で作成した文章を保存するための形式)」や「.txt形式(そのファイルがテキストファイルであることを示す一般的な形式)」のファイルとして保存されていることが多いはずです。まずは、それら原稿となるファイルを用意してください。

後述する転記作業の妨げとならないように、これらの原稿には、JATS XML形式で記述することのできない表現は含まれていないことが望ましいです。JATS XML形式で記述することのできない表現には、以下のようなものが含まれます。

  • ● 背景色
  • ● 文字色
  • ● 見出しや本文といった各要素のテキストフォントやフォントサイズ
  • ● 誌面での各要素の配置位置や、各項目の配置の順番(例えば、誌面のどの位置にタイトルが配置されて、本文がどこから始まるかなど、また誌面の隅に雑誌名やタイトル、巻号といった要素を配置するか否かなど)

これらの体裁はすべて、論文の各要素が誌面にどのように組版されるべきかを指定しているものであることにお気づきでしょうか? 例えばある論文雑誌の誌面内に配置されている他のテキストよりもフォントサイズが大きかったり、文字色が違っていたりするテキストは、一般にタイトルや見出しであることが多いですが、文字サイズが大きいことや文字色が黒色ではないことと、そのテキストがタイトルや見出しであることは、必ずしもイコールではないでしょう。タイトルや見出しの文字サイズがどのくらいの大きさであるかは、論文雑誌ごとにそれぞれ異なっているはずで、文字サイズやフォントサイズといった情報そのものには、その論文に何が記されているか、その内容を説明する情報は一切含まれていないことは明らかです。

前章までで解説する通り、JATS XMLは構造化された文章ですから、あくまで、その文章内に記述された各テキストが、その論文のどの要素(タイトル、本文、著者名など)に相当するかのみが記述されるべきです。タイトルや本文、著者名といった各要素が、それぞれどのような体裁で組版されるべきかを記述することはできません。

間違いを防ぐためにも、原稿を入手する際には、文字色やフォントのサイズなどは統一された原稿を用意するよう、原稿執筆者に要請したり、原稿提出を受けた編集者の手で、提出された原稿データを修正するのがよいでしょう。

ただし、ただの組版の際に使用する体裁の情報のように見えて、実際には、論文の内容の一部を構成する表現というものも存在します。例えばある論文の中の段落で、その一文のみが太字で強調されている時、太字にされたテキストは、その他の本文テキストに比べて強調されるべきである、という著者の意図が含まれています。また科学式や数式といったテキストでは、上付き文字や下付き文字、斜体字にされた文字が他の文字とは異なる個別の意味を持つことがあります。JATS XMLには、こうした著者の意図を伝える組版表現を明示するために「修飾タグ」と呼ばれるタグ群が用意されています。これら修飾タグで表現することのできる体裁については、後から転記作業の際に、それらの修飾タグを付与することを明示しておくために、原稿に含めたままにしておくべきです。

J-STAGEでは、JATS XML形式で使用することのできる修飾タグの一覧をまとめた資料「J-STAGE XMLフォーマットガイドライン(別紙1)修飾タグ処理仕様」1)(表3.1、表3.22))を公開しています。その体裁が修飾タグの形で表現することができるかどうかは、その修飾をかけられるテキストが、論文を構成するどの要素(タイトル、本文、著者名など)のものかによって異なりますので、上述の資料を参考に、原稿に体裁を残した状態にしておいてください。

表 1 
表 2 

あわせて、変換元となる論文原稿データは、その論文を構成する各要素(たとえば、タイトル、本文、著者名など)ごとに区分けがはっきりとなされていることが望ましいです(図3.1)。

図 1 

たとえば、タイトルと本文との間に改行がなされていなかったり、著者名の姓名の間にアキが入れられていなかったりするなど、要素ごとの区切りが曖昧だと、どこからどこまでが一つの要素として解釈されるべきかがわかりづらく、続くJATS XML形式に転記していく作業に支障が生じます。タイトル、本文など、各要素ごとに改行を挟む、各要素の開始位置に“●”や“■”などの、論文中には出現しない適当なマークを前置するといった方法で、各要素ごとの区分けを行ってください。

余談ですが、こうした「データの掃除」の工程については、現状の技術体系では手作業が欠かせません。原稿の中から、JATS XMLとして記述することのできない不要な体裁を取り除き、逆にJATS XMLで記述されうる、原稿のどの部分がどの要素・構造に相当するかを指定する方法には、本項で紹介した方法以外にも、Wordの段落スタイル、文字スタイルといった機能を使用する方法など、細かな方法がいくらかありますが、そのどれもが、最終的には人の手によって、構造の割り当てが行われています。

適切な体裁を守られた原稿データをもとに編集ができるのであれば、マクロなどの諸機能を介することである程度の自動化も可能かもしれません。しかし、著者から提出される原稿データが常に適切な体裁で記述されているとは限らず、誤った体裁の原稿が提出された場合、自動でそのデータを整理することは困難を極めます。最終的に、論文のどの部分がタイトルで、どの部分が著者名を表し、どの部分が本文であるかといった、論文の各部位がどの要素を構成しているかの解釈は、人間にしか推察することはできないのです。

詳しくは第8章で紹介しますが、こうした解釈の分野は、現在、人工知能技術(AI)の躍進によって改善が期待されています。将来の技術発展が望まれます。

3.3 JATS XMLの雛型の用意

本項で説明する“力任せ”の方法では、3.2節で用意した論文原稿の各要素を、タグで囲み、順序に従って転記していくことで、最終的に論文の各要素を含んだJATS XML文章を作成していきます。理論的には、論文原稿の各要素の前後に、その要素に相当するJATS XML形式のタグの開始宣言と終了宣言を記入しさえすれば、それだけで先ほどの論文原稿をJATS XML形式の文章に変更することは可能ではありますが、それではあまりに労力が大きく、間違いが発生する懸念もあるため、現実的ではありません。

そこで、“力任せ法”では、JATS XML形式の体裁がそろった“雛型”を用意し、その雛型の各部位を前項で用意した論文原稿のテキストに書き換えていくことで、JATS XML形式の文章を作成することを目指します。

雛型は、JATS XML形式の文章であれば何でもよいというわけではありません。JATS XML形式で記述された文章では、その文章に含まれていない要素の記述は省略することができますから、雛型で省略された要素の中に、論文原稿に含まれている要素があった場合は、転記作業に支障が出てしまうからです。

雛型として適切な文章は、JATS XML形式で記述された文章データの中でも、特にJATS XML形式で表現できる各要素が、順序に沿って網羅的に記述されているものが望ましいでしょう。少なくとも、3.2節で用意した原稿データに含まれている各要素に相当する要素が含まれていることは要件として欠かせません。

例えば、タイトルが存在しない論文はほとんどないでしょうが、用意した論文原稿に、要素として論文執筆にかかる資金の提供者の情報が含まれている場合を考えてみてください。JATS XMLには、資金提供者の諸情報を記述するためのタグが用意されていますが、そもそも資金提供者情報が明記されている論文は稀ですから、そのような要素が省略されているJATS XML形式の文章は少なくありません。そのような、今回記述する論文原稿のJATS XML化に必要な要素タグが省略されたJATS XML形式の文章(珍しくありません)では、雛型としての機能は果たしえないでしょう。それらの情報を雛型に転記しようにも、転記先がないからです。

これまでに”力任せ法”その他の方法によって、JATS XML形式に記述しなおした同様の論文データがあれば、その論文データを雛型にして、それをもとに作業を実施するのもよいでしょうが、そのようなものがない場合や、転記作業の途中で間違いが発生する懸念がある場合は、J-STAGEが公開しているxmlファイルを雛型とするのがよいでしょう。

J-STAGEが公開している「J-STAGE全文XML利用者向けマニュアル」3)には、その末尾に「参考文献」の形で、「FULL-J XMLサンプル」が掲載されています。こちらからダウンロードできるzipファイルを解凍したフォルダに含まれるxmlファイル(図3.2)は、JATS XML形式で記述された、一般的な論文の体裁を持つXML文章であり、“力任せ法”の転記作業を行うための雛型として使用するのに理想的なものとなっています。特別の事情がない限り、こちらのファイルを雛型として用いるのがおすすめです。

図 2 

3.4 転記作業

さて、それでは、3.2節で用意した論文原稿をもとに、JATS XML文章形式のファイルを作成していきましょう。

“力任せ法”では、3.3節で用意した雛型のファイルを編集し、それを修正する形でJATS XML形式のファイルを用意します。雛型のファイルは、すでにJATS XML形式の文章として適切な体裁を持っているので、この各要素に含まれるテキストを、今回の原稿のものに差し替えれば、今回用意した論文の情報を網羅したJATS XML形式の文章が完成するはずです。

“雛型”のファイルを何らかのテキストエディタで開き、編集が可能な状態にしてください(図3.1参照)。

前章でも説明しているように、このテキストのうち、“<” “>”で囲われた内部の文字列は「タグ名」を表し、その要素がどのような意味を持っているかを説明しています。本章で紹介する方法では、原則として、この“<” “>”で挟まれた文字列を訂正することはありません。

“力任せ法”で編集するのは、“<” “>”のタグ宣言で囲われた内側にある、各タグが持つ要素情報です。この部分に、用意した論文原稿の中から適切な文字列を転記していきましょう。どこにどの文字列を転記すればよいかは、その文字列の直前に存在する“<” “>”で囲われたタグ名が説明しています。どのタグ名がどのような要素を意味するのかについては、先ほど雛型をダウンロードした「全文XML利用者向けマニュアル」のページの中ごろ、「3.4.3.書誌事項の項目一覧」「3.5.3.文書本文の項目一覧」の項以下で記述されています(図3.3参照)。

図 3 

例えば、その論文誌のタイトルが「○○学会会誌」であるなら、雛型の内部にある<journal-title xml:lang=”ja”>情報管理</journal-title>の文字列の中から「情報管理」という文字列を削除し、「○○学会会誌」に訂正してください。

タグによっては「p」(段落)のように、それ単体ではどの部分を司るタグであるかがわからないものもありますが、そのようなタグの場合は、そのタグを囲む上位のタグに、そのタグがどのような要素に内包されているかが示されます。例えば、pタグの上位のタグにはabstract(抄録)タグや、caption(画像キャプション)タグがあり、その段落がどの位置に配置されるべき段落であるかを示しています。

なお、雛型の文章の最初に含まれている、<front>以前に存在する部位は、各種の宣言であり、“力任せ法”では一種の「おまじない」として扱い、そのままにしておきます。この部位の記述の内容を理解するためには、より専門的な知識が必要となりますので、本章では解説しません。

3.5 タグの追加

場合によっては、転記するべき情報が複数のタグにまたがり、雛型にそれを記述するためのタグが含まれていない可能性があります。例えば、先ほど例示した、J-STAGEよりダウンロードできるxmlファイルの中には、本文は7章分しか存在しませんが、8つ以上の章を含む本文を持つ論文原稿の場合は、新たに必要な分の章のタグを追加する必要があります。また、各章には段落ごとにpタグが必要ですが、1つの章に含まれる段落の数は論文によって大きく異なることでしょう。

このような場合は、雛型内の同様の意味を持つタグの開始から、終了までをコピーして、必要な箇所に追記して使用します。例えば段落であれば、記述を始める直前の段落を表すpタグから、その終了宣言(</p>)までの間の文字列をコピーし、その終了宣言の直後に追記します。その後、pタグの開始宣言(<p>)と終了宣言との間に含まれる文字列に、新しい段落に書き記すべき情報を転記してください(図3.4)。

図 4 

3.6 文字修飾を表現する

本章の3.2節で論文原稿の用意を解説した際、JATS XML形式の文章に含めることのできる修飾タグについて紹介しました。これらの文字修飾が論文原稿内に含まれている場合は、転記したタグ内の必要な箇所に、それらの文字修飾が付与されることを記述する必要があります。

このような記述を、JATS XML形式のXML文章では、タグで囲うことで表現します。例えば、本文中、太字として表現されるべき箇所について、pタグの開始宣言と終了宣言の間に転記された文字列の中から抜き出して、<bold>などの体裁を表現するタグで囲みましょう(図3.5)。

図 5 

3.7 不要なタグの削除

論文原稿内のすべての情報が転記し終えたら、最後に、そのタグ内の文字列に転記を行わなかったタグの開始宣言から終了宣言までの文字列を削除します。6つ以下の章構成しかない論文であれば、第7章を司る<sec>宣言以下、</sec>以上の部分の文字列を削除しますし、funding-group(ファンド情報)タグなどの内部に含む情報が論文原稿にない場合は、それも開始宣言から終了宣言までを削除します。

これらの手順を適切に実施すれば、原稿データをもとにしたJATS XML形式の文章を作成することができます。

3.8 “力任せ法”の問題点

前述の通り、“力任せ法”はJATS XML形式に準拠した文章を作成するための、最も素朴な方法ですが、実運用に際しては問題も多く存在します。一番大きな問題は、転記作業の実施中に、適切なタグへの転記を誤り、意図しない範囲に転記してしまうことで、適切な文章が作成できなくなる懸念です。

また、雛型への転記作業後のファイルの保存の際に、上書き保存をしてしまうことで、雛型が復元不可能となる可能性も否定はできません。J-STAGEが公開しているxmlファイルを雛型として使用しているのであれば、J-STAGEのサイトにアクセスの上、再度ダウンロードして雛型を復元することができますが、例えば過去に作成した同様の論文データを雛型として転用している際に上書き保存をしてしまうと、雛形として使用した過去の論文データの復元が困難となる恐れがあります。

また、“力任せ法”には、出来上がった文章が、JATS XML形式を正確に準拠できているかをチェックする方法はありません。“力任せ法”は、論文原稿からJATS XML形式への変換を大部分を手作業による転記で賄う方法ですから、当然ミスによって正しい変換が行えなくなることがありますが、完成した文章をぱっと見て、それが正しい文章であるか誤っている文章であるかを判別することは至難の業でしょう。

J-STAGEの全文XML登載機能に文書をアップロードする際には、その文章がJATS XML形式を準拠しているかを判定する機能がありますから、何か誤りがあれば、そのアップロードの際に気づくことはできますが、作成した文章のどの位置が誤っていて、適切でないか、どの部分を修正すれば問題なくアップロードができるかを探し当てることは大変面倒です。

これらのリスクを回避して、原稿データをJATS-XML形式の文章に変換するためには、後述するそれぞれの手法を使用することが求められます。ただし、後述する方法についても、原稿データの用意などの基本的な部分では、“力任せ法”を踏襲する場合が多いので、まずは“力任せ法”を用いた変換を一度試してみて、JATS-XML形式に準拠した文章の構造や、原稿データの整理の方法などの基本的な知識・スキルを修得してみるのがよいでしょう。

3.9 参考文献

  • ○ 国立研究開発法人科学技術振興機構[JST, J-STAGE全文XML利用者向けマニュアル https://www.jstage.jst.go.jp/static/pages/GuidelineAndManuals/zenbun-xml-jats1_1-manual/-char/ja

セミナー・講演会 資料DOCUMENT

セミナー
講演会の資料
Speaker Deckへ
セミナー・講演会 資料

JATS日本語版JATS JAPANESE EDITION

JATS日本語版Tag Libraryへ
JATS日本語版

JATS4R日本語版JATS for ReUse

JATS4RJATS for ReUseへ
JATS4R日本語版