MENUCLOSE
会員限定ページ CONTACT
JP EN

JP EN
会員限定
ページ
CONTACT

第1章 XMLの重要性とJATSの誕生

ホーム > 第1章 XMLの重要性とJATSの誕生

第1章 XMLの重要性とJATSの誕生

中西 秀彦

1.1 MEDLINE事件の衝撃

MEDLINEは医学関係者、医学文献出版社、編集者なら誰も知らない人がないでしょう。米国のNLM(National Library of Medicine)が運営する医学文献の総目録といってもいいデータベースです。医学文献を探す研究者はまずMEDLINEを検索しますから、医学関係で発表された論文はここに掲載されることで、耳目を集め、読まれ、引用されていくのです。ここで大事なのはこのMEDLINEに掲載され、重要文献と判断されるのは雑誌単位だと言うことです。重要であるかどうか、論文ごとに判断していたら、NLMの人手がいくらあっても足りません。そして誰が重要であるかどうかを判断するのかという基準の問題もでてきます。まず、雑誌単位でMEDLINEに掲載される水準か否かが判定され、載るということになればその雑誌に掲載される論文はすべてMEDLINEに収集されます。ですから、MEDLINEに掲載されるかどうかは雑誌にとっても投稿者にとっても死活問題なのです。

ところが、2017年大変なことがおこります。日本の医学雑誌が突如34誌もMEDLINEに掲載取りやめになったのです。これは全掲載誌の28%にあたります。他の国の雑誌ではこんなことはありませんでした。なぜ、日本の雑誌だけが急に外されたのか。研究水準が突然いっせいに下がったりすることは考えられません。それでは日本だけ差別されたのでしょうか。いいえ、この問題について精査した松田・黒澤・林論文(「MEDLINE 収録 国内医学雑誌の経年分析:採録数の減少と電子データの重要性」情報の科学と技術70巻1号(2020))では恐ろしいことがわかってきました。

こうした掲載とりやめになった雑誌はXMLで論文を提出していなかったのです。NLMはすくなくとも論文書誌についてはXMLで提出することを義務づけています。またMEDLINEでは書誌だけですが、全文データベースである同じくNLMのPMCでは論文そのものをXMLで提出することを掲載条件にしています。つまりXMLで論文を書くことはNLMにとって当然ともいえることなのです。この件について、NLM側はなんどもXMLで提出するよう日本の雑誌について警告を発していたようですが、日本側はXMLを作っていませんでした。おそらく多くの学会や出版社はXMLそのものを知らなかったのではないかと思われます。

MEDLINEから一度落ちてしまうと、再度掲載してもらうのは大変です。MEDLINEには掲載してほしいという雑誌が「世界中から」申請をだしてくるのです。一度掲載されればよほどの事がない限り落とされることはありませんが、新たに掲載されるには雑誌の水準が既存の雑誌と同等かそれ以上であることを証明しなければなりません。実際多くの雑誌が2024年2月現在まだ再掲載されていません。

1.2 PDFとXML ~構造化文書~

XMLで作られていなかったばかりに、日本の雑誌は大変なことになってしまったわけですが、そもそもXMLとは何でしょう。そしてなぜこんなに学術情報の世界で重要視されるのでしょうか。

XMLは実は単純なテキストデータです。Windowsにおまけでついてくるメモ帳ですら読めますし、Wordや一太郎でも特に変換処理とかしなくてもそのまま読み込めます。逆にWordにしても一太郎にしても、読むためには対応するソフトがいりますからそのシンプルさは際立っています。ただ、普通のテキストデータと違うのは、タグという“<”“>”で囲まれたところがあることです。これをマークアップといいます。このタグの中にそれぞれのテキストの構造が書き込まれているのです。こうしてできた文書を構造化文書といいます。

構造化文書というのはわかりにくいかもしれません。これと対比する意味で日本で雑誌等を電子化する際によく使われるPDFを考えてみましょう。PDFは雑誌の誌面をそのままに電子データに置き換えています。PDFで電子化されたデータは印刷すると、雑誌の見た目そっくりの誌面がそのままでてきます。ですので、印刷して紙で読む場合はこの方が都合が良いと考えられています。実際、多くの読者はPDFを画面で読むのではなく、印刷して紙で読んでいると思われます。

ではPDFをなぜわざわざ印刷するのでしょう。PDFは画面で読むには適していないからなのです。もともと縦長の紙に印刷することを想定されたデータを横長のコンピュータ画面で読むわけですから、違和感があります。ことに2段組のようにページを2分割して段に組むような誌面構成の場合、左段の最終行まで読んで、また右段の先頭まで、画面を動かさなければなりません。これでは大量に読もうという気にはなりません(図1.1)。

図 1 

もともとページ構成というのは、情報を伝達するのに紙というシート状のものを使うという制約から来ています。

しかし画面で読む際に問題なのは、読まれるときの画面が必ずしも一定なものではないということです。紙の雑誌にはA4ならA4、B5ならB5と確たるサイズがあるわけですが、画面にはそんなものはありません。ある人はパソコンの大画面で見ているかもしれませんし、ある人はタブレットで、また別の人はスマホで読むこともあるでしょう。このとき画面の大きさはそれぞれ全然違っています。どんなサイズでも表示するのに、もっとも簡単な方法は、そうした誌面の構成をまったく無視して、ただ単に文字だけをテキストとして流しこむことです。しかし、タイトルもサブタイトルも本文も脚注もみんなだらだらと同じ大きさで書かれていたら読みにくいことこの上ありません。

PDFや普通の紙の本だと、タイトルは大きくて太字にしたり、脚注は小さい字でページの下の方に配置したりします。タイトルを大きくして太字にするのは紙の本ではお約束ですが、別に読みやすくするだけなら、派手な色をつけるとかでもいいはずです。つまりタイトルを本文と違って目立たせるとというのは、文書の中でタイトルやサブタイトルが本文にない特別な意味をもっているからです。これが文書構造です。

PDFでの見た目をよくするため、タイトルの字を大きくするのは本質ではありません。これがタイトルであるという事実の方が本質なのです(図1.2)。

図 2 

これをさらに突き詰めて考え、視覚障害者向けの読み上げを考えます。最近ではコンピュータによる自動読み上げもよく使われますが、タイトルという意味が付与されていれば、大きな声で読んでもらうということも可能です。大きな音量で読むきっかけは見た目の判断より、「タイトル」であることを示した方がコンピュータにとってはわかりやすいのです。ましてや小さな字で脚注が書いてある場合、どの音量で読むか以前に、いったいどの順番に読めばいいのかがコンピュータにはそのままでは判断がつきません。「小さな字で書かれている」という事実よりも、「脚注」というキーにしておけば、小さな声で読むか普通の声で読むかというのは読む方の好みでできますし、脚注を逐次読むか飛ばして読むかなど読む側の判断で変えることができます。

要は「タイトル」「本文」「脚注」という文書の中での意味づけを明確にしておくだけで、汎用的にいろいろな用途に使えうる文書となるということです。これを構造化文書といいます。構造化文書にしておけば、Wordのスタイルのように紙の本の組み方の原則を踏まえて、自動的に体裁のいい文書が作れますし、Webなら、ありとあらゆる画面に最適な表示形式や読者の好みの表示形式にいくらでも変えることができます。

構造化文書の具体例はこのあとの文法の解説のところにたっぷり載せていますので、参照してみてください。

1.3 巻物からネットへ ~検索~

構造化文書にしておけば、さまざまな見た目で表示できる。まさに電子時代にうってつけの表現形式であることがわかりますが、それだけではありません。さらに便利なことがあります。それは検索性の問題です。最近のWebページではページという概念がなく、ずっと下へ下へとスクロールして読むようなことが多くなっています。紙のシートという制約がなくなれば、紙の切れ目で止まることなく、章とか節の切れ目まで一体の文書として読むことができます。これに慣れると、ページの切れ目で思考が中断されることなく、読みやすいのです。

実はスクロールして読むには元祖があります。そうです、巻物です。昔のお経もそうですし、西欧でも中世以前は書物と言えば巻物でした。スクロールして読むのが読みやすいとするならばなぜ紙の巻物は使われなくなっていったのでしょう。

巻物が冊子体にかわっていった原因は収納などの問題もありましたが、最大の問題は検索でした。冊子体は巻物に比べると検索に優れていたのです。たとえば聖書のなかで特定の何節かを毎日読みたいようなとき、そのページにしおりでも挟んでおけばすぐに読み出すことができます。巻物ではそうはいきません。必要な箇所を探して毎日毎日くるくる巻物を繰らなければなりません。さらに、たとえば辞書を巻物で作ったらどうなるか、その不便さは想像を絶します。必要な項目まで巻物を繰って、やっと探したと思っても、次に別の項目を探すためには、また巻き戻す必要まであります。また丸い巻物では、背表紙がつけられないので巻物自体を探し出すのにも困難を極めます。

さて、紙の冊子が巻物に比べて検索性にすぐれているのはわかりました。ではWebページはどうでしょうか。これはもうみなさん毎日のようにその便利さの恩恵を受けています。検索語をいれるだけで特定のWebページに一瞬で跳べますし、本棚もいりません。こと検索ということに関しては紙の本をはるかに凌駕してしまいました。Webの検索性の良さは事典的なものにはうってつけで、インターネットが登場してたかだか30年程度にしかなりませんが、紙の事典はほぼ壊滅しました。他にも電話帳や名簿類など、事項を羅列した文書はインターネットの前にどんどん消滅していきました。

そして検索性がもっとも大事な文書に学術論文がありました。大学の卒業論文で「先行研究の探索が甘い」と先生に言われませんでしたか。世界中でありとあらゆる領域で細かい研究がなされています。シェークスピアの戯曲の研究だと世界中で専門の学術論文から大学の卒業論文、それに授業のレポートまでいれればおそらく万単位の研究がなされています。日本でも源氏物語の研究は無数にあるでしょう。文科系に限ったことではありません。理科系でも世界中探せば同じような研究をしている人は山ほどいると思います。ここで検索性が大いに意味をもちます。今までこの領域でどんな研究がなされていて、どんなことがわかって、今何が問題として残っているのか、これを世界中の論文から探しあてねばならないのです。

この検索は今ではネットを通じて行われるのが普通です。ちょっと前まで、すくなくとも私の学生時代は、紙の論文雑誌を探しに行っていました。そしてこれはなかなかの難行苦行。論文の引用文献や参考文献からたどって、元の論文にたどりつこうと思っても、通っていた大学の教室にはなく、学部の図書室にもなく、ちょっと離れた全学共通の図書館に探しに行くというのは日常茶飯事でした。それでもないと、先生に紹介状を書いてもらって、別の大学の図書館まで借りに行くというようなことがしょっちゅうありました。それでその大学にたどりついても、図書館が休館日であったり、お目当ての論文雑誌が借り出されていたり、散々な目にあいました。

ネットだと、すごいですね。引用文献をクリックすれば、元の論文へ一瞬で跳べる。すごい時代になったものです。論文や研究の生産性は飛躍的に高まったと思います。ではその検索はどうやって可能になっているのでしょうか。そこでまたXMLをはじめとした構造化文書が必要になってくるわけです。そう聖書にはさんだ「しおり」の役割をタグが担うわけです。

1.4 検索の根本 ~リンク~

インターネットで検索をする際に重要なのはハイパーリンクの存在です。ハイパーリンクとはネット上の特定の位置、ボタンや文字の色が違っている箇所などをクリックすると、別の箇所へ一瞬でとんでいくことをいいます。つまりテキスト(文書)とテキストがハイパーリンクを通じて関連付けられているのです。これがWebページの根本的な原理です。ハイパーリンクは紙の本では絶対にありえない機能です。本ならば「○○ページ参照」と書いてあることに相当しますが、そこのページを探すためにそのページまで紙をめくるということになりますし、それが別の本であれば、立ち上がって書庫にその本をさがしにいかねばなりません。ましてや、書庫にもなければ、何日もかけて図書館にいったり取り寄せたりと大変なことになります。まさに引用文献をさがすときの苦労とはこれでした。

ハイパーリンクはHTMLの中に記載されています。具体的には以下のようなメッセージになります。

    <a href="https://www.jstage.jst.go.jp/article/johokanri/57/3/57_149/_article/-char/ja/">

これは『情報管理』という雑誌のサイトの特定の論文にとぶメッセージですが、このようなメッセージがWebページを構成するHTMLの中にはびっしり書き込まれています。オンラインで論文を提供する場合、このようなメッセージを埋め込んでおかなければ、便利なリンクは使えません。ちなみにHTMLとはHyper Text Markup Languageです。

じゃあ、このメッセージは誰が作っているのか。最初はWebページを作る際にいちいち、このようなメッセージを書き込んでいました。これは大変な手間ですし、サイトは比較的頻繁に無くなったり、場所を換えたりしますので、そのたびにこのメッセージ自体を書き換えねばなりませんでした。

しかも、リンク先は雑誌だけではなく、題名であったり、著者名だったりします。そうするといちいち膨大なリンクを記述することになります。記述が膨大になればなるほど間違いもおこってくるでしょう。

そのために、論文を標準化して、リンクされやすくする必要性が生じてきました。人間がやっていたのではとてもじゃないですが、いちいちリンクなどしていられないけれど、コンピュータならそれを一気にやってくれるわけです。論文にとって検索されることはもっとも大事です。検索しても出てこない論文は発見されないのですから、発表されていないのも一緒なのです。検索されるためには、検索されやすい形式つまりHTMLに変換しやすい形式で論文を書いておく必要性があるというわけです。

検索されやすいための論文形式とは何か、ここに構造化文書XMLの重要性が際立ってきます。

コンピュータは一定の原則に従って、情報を分類したり、変形したり、集計したりに圧倒的な強みをもっています。リンクも一定の形式に従っていれば変換はごく簡単な話となります。まずは、論文という文書の形式を揃えることが重要です。タイトルのない文書はないでしょうが、人名や所属の形式が文書ごとに違っていれば、それだけでコンピュータは迷います。正しくはリンクづけられません。ただ単に文書として書いていただけではコンピュータはどれがタイトルでどれがサブタイトルでどれがキーワードで判別がつかないわけです。また引用文献でもどれが著者名で、どれが掲載誌で、どれが巻号では区別つきません。ですから、まず形式を整える。これが決定的に大事になります。タグを使ってそれぞれをコンピュータに教えてやるのです。ここで解説している科学技術論文用のJATSでは文書の中にどういう構造要素がなければならないかを厳密に決めています。これだからこそ、リンクも正確にできますし、文書も探しやすいのです。

たとえば、参考文献だとこのように書きます。

    <ref id="B30">
        <citation-alternatives>
    
            <mixed-citation publication-type="journal" publication-format="print"
             xml:lang="ja"> 
                <person-group person-group-type="author">
                    <string-name name-style="eastern">
                        <surname>柿崎</surname><given-names>一郎</given-names>
                    </string-name>
                </person-group>. <year iso-8601-date="2000">2000</year>. 
                『<source>タイ経済と鉄道1835 年~1935 年</source>』
                <publisher-name>日本経済評論社</publisher-name> 
            </mixed-citation>
    
            <mixed-citation publication-type="journal" publication-format="print"
             xml:lang="en">
                <person-group person-group-type="author">
                    <string-name name-style="western">
                        <surname>Kakizaki</surname>,
                         <given-names>Ichiro</given-names>
                    </string-name>
                </person-group>. <year iso-8601-date="2000">2000</year>. 
                <source>Thai Economy and Railway 1885-1935</source>. 
                <publisher-loc>Tokyo</publisher-loc>:
                 <publisher-name>Nihon Keizai Hyoronsha</publisher-name> (in Japanese)
            </mixed-citation>
    
        </citation-alternatives>
    </ref>

じゃあXMLでなく最初から全部HTMLで書けばと思われるかもしれませんが、世界中のさまざまなWebページはそれぞれ異なったHTMLで書かれています。論文はひとつのWebサイトで使われるだけではありませんし、自動組版でPDFに変換する場合すらあるので、HTMLより汎用性のあるXMLが使われます。

1.5 JATS XMLの誕生

世界中の論文を同じ形式にしておけば、電子文書として使いやすくて、検索にも有利。そのことからJATSが使われるようになってきています。ここでは少しさかのぼってJATSの成立過程を見ていきましょう。

世界中で論文の書き方を統一するといっても、どこで誰が決めたのでしょうか。XMLという文書形式を使うと便利だということは早くから認識されていました。検索のための書き方として一番コンピュータにとってありがたいのは、Excelのような表にしてしまうことです。1列目はタイトル、2列目は著者名、3列目は著者所属、4列目はアブストラクト、5列目はキーワードというように決めて、世界中がそれを実行すれば、あっというまに学術論文データベースのできあがりです。これはおそらくめちゃくちゃに便利でしょう。

ただこのやり方だと、著書が2人の時はどうするのか、アブストラクトが英語と日本語両方ある時の記述はどうあるべきか、著者所属が一意では決まらないときの書き方などなど、いちいち対応していられません。何か例外が出るたびに一からデータベースの設計し直しになるか、例外は認めないと情報を切り詰めてしまうことになります。これでは重要な情報が切り落とされることになります。

XMLはタグ形式ですから、そのあたりが柔軟です。項目がないならないでいい。例外がでてくればその記述法を追加すればよいだけで、今まで作ったデータを全部作り直す必要もありません。それでも最低限、どのような情報が必要で、どのような情報をどういう形式で載せるかということを決めておく必要があります。

このような決まりをスキーマといい、論文向けのJATSだけでなく本向けのBITS、手書き文書向けのTEIなどいろいろできてきています。

JATSの大本はNLM DTDというものでした。

NLMは前述したようにNational Library of Medicineです。米国国立医学図書館と訳されています。冒頭に出てきたMEDLINEを作成しているのが、ここです。2002年NLMが論文を電子データで集める際に作成したスキーマが、NLM DTDです。NLMの上部組織でもある米国のNIH(National Institute of Health:アメリカ国立衛生研究所)は2005年NIHのFund(研究補助金)をもらった研究はNLMのサイトに無料で掲載することを求めました。その際の掲載するデータの標準としてNLM DTDで書くことを推奨したのです。

なんせ、天下のNIHです。世界最大の研究助成団体です。ここに逆らったのでは、研究のための助成金がでなくなると、最初は抵抗があったものの医学関係の研究者はNLM DTDで論文を提出するようになります。

医学系の研究ではアメリカがもっとも進んでいますから、そこには世界中から人材が集まっています。そうしたアメリカの研究所で研究した人たちは多かれ少なかれNIHのFundに関係していますから、NLM DTDを使うようになります。結局NLM DTDを使った論文の書き方が世界中に広がっていきます。すくなくとも医学でトップクラスの研究をしている人たちの間やそうした人々の研究を載せる雑誌ではNLM DTDを使って論文を書くことが当たり前になっていきます。

こうして医学関係のXMLを作成する際のデファクトスタンダードとして、NLM DTDが普及していったのです。そしてNLM DTDを前提としたサイトがNLM以外にもできるようになってきます。本来、医学関係用のスキーマだったNLM DTDは生物学全般に使われるようになっていきます。やがて、医学生物学に限らずSTM全般も網羅したものがあればいい。そして英語だけでなく、日本語のような他の言語でもNLM DTDを使うようにしたいという機運がもりあがり、2009年JATSが誕生するのです。ちなみにJATSの仕様はこちら1)に書かれています。

この本の著者「学術情報XML推進協議会」は、もともと、このJATSの国際化に際して日本からの要望をとりまとめるためのSPJ(Science Publishing Japan)が元になっています。JATSは世界中で広く採用され、J-STAGEでも2012年のJ-STAGE3からJATSを採用しています。JATSで書くことはもはや学術論文にとって必須と言っていい状況になっています。

学術情報XML推進協議会はその後も特に日本語などのアジア言語をJATSに載せるための提案を行い、非グレゴリー歴(和暦・イスラム暦)やルビ記述方法などの提案は採用されています。

1.6 PDFとの両立

学術情報におけるXML記述の重要性はご理解いただけたと思います。ただ、現時点では、XMLを作るだけでは完結しない場合がほとんどです。それは、XMLと同時にPDFを作成することが強く求められるからです。これは論文が紙誌面で発表されるという慣例が日本ではまだまだ根強く残り、また、たとえ画面で表示するにしてもPDFで紙誌面に似た表現で読むことが好まれることによります。

結果的にXMLだけでなく、PDFを作成することが必須となってきます。校正もPDFでなされる事が多く、訂正や加筆も紙誌面やPDFに対して行われます。そしてPDFで校正された内容は、正確にXMLにも反映しなければなりません。XMLとPDFで記載内容に齟齬があったりすると大問題となってしまいます。この齟齬を回避するために第2編でそれぞれの過程が論じられていますが、基本的にPDFを先に作って、あとでXMLに変換する方法と、XMLで作り込み、PDFを自動組版で作る方法があります。

セミナー・講演会 資料DOCUMENT

セミナー
講演会の資料
Speaker Deckへ
セミナー・講演会 資料

JATS日本語版JATS JAPANESE EDITION

JATS日本語版Tag Libraryへ
JATS日本語版

JATS4R日本語版JATS for ReUse

JATS4RJATS for ReUseへ
JATS4R日本語版