コラム JATSを作ろう ~損して得取れ~
松田 真美
私の勤務先「特定非営利活動法人 医学中央雑誌刊行会」は、国内発行の医学および周辺領域の定期刊行物(学会誌、商業誌など)を収集、それらに掲載された文献・記事を一件単位でデータベース化し、その検索サービス「医中誌Web」を主として医療従事者およびその専門教育を受けている学生に向け提供しています。
創業時から冊子体、オンラインサービスへのデータ提供、CD-ROM、そしてWebへと提供媒体を変えてきましたが、2000年に医中誌Webをリリースしほどなく深く感じ入ったのは「インターネット上のサービスは独立して存在するものではない」と言うことでした。「独立して存在すべきではない」と言う「べき論」ではなく、自からそう言うものである、のような感覚です。
先達のPubMedはいち早く検索結果から元の論文の電子ジャーナルへのリンクを実現していましたし、海外有力版元は電子ジャーナルの引用文献リンクを効率的に行うべく、呉越同舟でCrossRefを立ち上げリンク先情報を永続的に担保する仕組みを作り上げていました。
そして遅ればせながら2006年、医中誌Webもフルテキストリンクを開始しました。リンクを行うため、リンク先の電子ジャーナルサービスのメタデータと医中誌データをせっせと照合・名寄せし双方のIDの対応リストを作りながら、本来はMEDLINEのように版元からリンク情報を含むメタデータを得るのが良いよなあ、と考えていました。
それは(株)医学書院さんが2007年に立ち上げた電子ジャーナルサービス「MedicalFinder」との連携にて実現し、同社から提供されるリンク情報と引用文献情報を含むメタデータを医中誌のシステムに組み込むことにより、医中誌Webから「MedicalFinder」へのリンクだけでなく、「MedicalFinder」に引用文献リンクをも提供する仕組みを構築しました。「医中誌LinkService」と称するこの仕組みは、医書ジェーピー(株)が提供する医書版元の横断的な電子ジャーナルサービス「医書.jpオールアクセス」に引き継がれています。
もともと、外部から医中誌データベースに書誌データを取り込む時に利用するタグ付きテキストのフォーマットは存在していたのですが、書誌情報に引用文献情報が加わりデータ構造がより複雑になったことなどから、XMLフォーマットを定めることとし、医学書院さんと相談しながら独自の「医中誌DTD」を定めました。
そして2014年、「MedicalFinder」の配信システムが米国の電子ジャーナル提供プラットフォームである「Atypon Literatum」に変更され、その電子入稿フォーマットとしてJATSが指定されていたことから、医中誌のXML入稿フォーマットも独自フォーマットからJATSに切り替えました。これは2017年の「医書.jpオールアクセス」のリリースに際しても引き継がれ、2024年6月現在、「医書.jpオールアクセス」に参加している医学専門版元約20社が発行する約130誌のメタデータがJATSで医書.jpに入稿され、医中誌データベースにも展開されています。
また、医中誌がJaLCの正会員に、そして「医書.jpオールアクセス」参加各社に医中誌の準会員となって頂くことで、オールアクセス掲載文献へのDOIの付与を実現したのですが、JaLCへのデータのデポジットもJATSから既定のフォーマットに変換することでスムーズに行えています。
このように、医中誌がネット上でサービスを展開し、他サービスとのデータのやりとりを行う中で、JATSを採用するのはごく自然かつ必然的な流れでした。これはJATSがテキストの管理及びデータ交換に優れたXMLであり、しかも論文情報に最適化された国際標準フォーマットだから、と言うことと同時に、そもそも医中誌のコンテンツ──メタデータのデータベース──が最初から構造化された情報だったから、と言うことも大きいと思います。つまり、構造化テキストのフォーマットの最適解として自からJATSが選択された、と言うことです。
そこから逆に目を転じると、国内の電子ジャーナル(J-STAGE、あるいは医書.jpオールアクセスなどの商業出版)において、フルHTML電子ジャーナルを最終的な出力とするXML出版がなかなか進まない理由があぶり出されるように思います。
つまり、学会誌・商業誌とも、そのコンテンツ(のイメージ)が強力に「誌面」であるがゆえに、構造化テキストの最適解を探す以前に、コンテンツを構造化することの意味、必然性を感じ難いのではないでしょうか。電子ジャーナルも美しくレイアウトされた誌面をPDF化すればそれで十二分である、との感覚です。
この美しくレイアウトされた誌面への愛着、それと裏腹な構造化への意欲の薄さ、に関しては「日本語が表意文字であること」、あるいは「日本文化においては構築性は重視されず、表層的な美に価値を見出しがち」といった興味深い議論も立ち得そうなのですが、私の力量では床屋談義の範疇にとどまること必定ですので、ここで掘り下げることは控えます。
しかし、「XMLの重要性とJATSの誕生(第1章)」で中西秀彦さんが力説されているように、ネットの世界においてはフルHTMLによる電子ジャーナルはPDFとは異次元な性能を発揮します。そしてさらに、2024年5月31日にリリースされた「我が国のジャーナルの振興に向けたJ-STAGE中長期戦略(改定)」で述べられているように、特に生成AIの時代に突入した今、XML出版によるコンテンツの機械可読化は平たく言えば「やらなきゃ(大)損」なフェイズに達していると思われます。
言い換えると、冒頭述べた「インターネット上のサービスは独立して存在するものではない」と言う点に関連し、「損して得取れ」と言うことかも? と考えました。
つまり、「なんでこんなめんどくさいことを? これって必要なのか?」と思いながらもXMLを作り出し世に出すことにより、それらが集積してインターネット上でより豊かで魅力的な情報の世界が実現し、その中で自らのコンテンツが幾倍もの価値を帯びる、と言うことです。
そして最後に、いささか我田引水ではありますが、私どもXSPAの活動はまさに「損して得取れ」であったかと思います。参加者はそれぞれ短期的には何ら利益を得ること無く、JATSの普及に資すると思われる活動を行ってきました。
そして本書籍の出版企画もまさに「損して得取れ」な発想において生まれました。その先にある果実を皆で分かち合うため、JATSを作成するためのプラティカルな知恵、経験値が惜しみなく提供されています。これは読まなきゃ損。と確信する次第です。