5/18 15:40 取得・表示周りを修正いたしました

ウェブ魚拓をご利用いただき、ありがとうございます。
・X (旧twitter) に対応しなおしました。
以上どうぞよろしくお願いいたします。


5/17の修正は以下となります。

様々なURLの修正をご要望いただき、ありがとうございます。
前回より修正にお時間かけてしまいましたことお詫び申し上げます。
・一部の動画SNS等のサムネイル取得を改善しました。
・取得時のクローラー等のアクセスブロックに引っ掛かる確率を下げました。
・フラグメント付きのURLの表示を修正しました。
・非HTMLファイル保存の成否時に時間がかかることがあるのを修正しました。

・取得に問題があった時のエラー表示を細かくしました。

その他、現状確認できた問題点は以下です。
・取得時に割り当てられたメモリ等リソースを超過したときに約500-600秒たってようやくエラーになる
一見ただの小さい画像に見えるものが10MBのpngで、それを複数載せているようなページがあり、そういったものをそのままのサイズで圧縮するのにメモリを使います。
こちらは現状、プログラム上では補足が容易ではないため、取得用のサーバーの強化し、そのサーバーがダウンしているときに自動的に切り替えるバックアップを用意する計画を立てています。

引き続きお気づきの点ございましたら
ご面倒かと思いますがご連絡どうぞよろしくお願いいたします。

5/7 18:15 取得周りを修正いたしました


最新
しばらくこちらに追記していきます。

5/7 18:15
「5分以上かかる」というご報告を何件かいただいておりますが、同一URLを交えた本番よりリソース大幅に抑えた試験環境の負荷試験でも特に発生せず、調査中です。ログでも240秒以上をWARNINGとしておりましたが、まだ確認できておりません。以下の対策を行いました。

・取得のコンピュータリソースを大きく強化しました
・ログの取得を強化しました。(本件の変更におけるログに取得者のIPアドレス等情報は含んでおりません)
・遅延読み込み用のスクロールの距離を強化しました。

ひきつづき情報を募集しております。秒数カウント画面に行く前に五分かかる、行ってから5分かかる等の情報もあればありがたいです。
以上どうぞよろしくお願いいたします。



5/4 19:00は以下です。

・一部408エラーの修正
・エラー時のレスポンスが返せていなかった場所を修正
引き続きお気づきの点ございましたらご報告よろしくお願いいたします。

5/4 0:30は以下です。

60回から30回に制限が減った理由をお問い合わせいただいておりますが、理由は以下の通りです。

・ウェブ魚拓の運営において現在最もコストがかかっているのは取得となります。
・取得はクラウドを利用しており、原価はすべて米ドルとなります。
・60回制限と決定したときより、ウェブコンテンツのリッチ化、および米ドルとクラウド料金の高騰から月により揺らぎがありますが、3.0~3.8倍になっております。
・広告表示もプラットフォームのコンテンツ内容判断の厳格化から現在停止しておりますが、こちらは内容が広告に慮ることは許容されないものであると考えておりますため、別な方法を考えております。

以上となり、30回でいったん様子を見させていただく形となりました。
ご理解いただけますと幸いです。


修正内容は下記のとおりです。

ログなどをチェックし問題が起きていた取得を修正しました。
・巨大なファイルのタイムアウトを早めました。
・通常のブラウザ閲覧では気づきづらいところですが、ボット対策のリダイレクトの処理などが入っているページの取得を修正しました。

いただいたご意見を確認し取得ボタンと注意書きの位置を修正しました。
条件が重なると非常に長い時間がかかるというご報告も受けておりますが、現在調査中です。
引き続きお気づきの点ございましたら大変ありがたく思います。

取得の修正をアップデートします

ウェブ魚拓をご利用いただき、ありがとうございます。
先日のアップデートより
・スクリーンショットしか取れない
・動作が重い
といったご指摘がございました。
ご指摘感謝いたします。

AVIFの変換キューが爆発的に増加するような問題点が確認できましたため、一旦webp(quality 80)への変換に修正させていただくこととしました。
画質的には特に問題はないかと思われます。
また、よくアニメーションに使われるgifは無変換としました。

弊社の負荷試験が不十分でありましたためお手数おかけいたしましたことお詫び申し上げます。
すぐにバージョンアップが反映するかと思います。

追記:リダイレクトに失敗することがありますので、そちらもまたバージョンアップさせていただきした。
今後ともどうぞよろしくお願いいたします。

【追記】ウェブ魚拓のバージョンアップが終了しました

連携が上手に言ってなかった点から延長が行われてしまい、お手数をおかけして申し訳ございませんでした。
まだ不安定なところも多分にあるかと思います。

追記: 特に多いご報告はスクリーンショットが多発するというものです。こちら、修正していこうと思います。

その際お手数ですがご報告いただきますと幸いです。
例えば画像のAVIF化は現状60ですが、上げてほしいといったご意見も検討可能です。
以上どうぞよろしくお願いいたします。

【重要・緊急】ウェブ魚拓のバージョンアップを行います

ウェブ魚拓のやや大きいバージョンアップを行います。
5/1 AM 7:00~、2~3時間ほどを予定しておりましたが、一旦終了を未定とさせていただきます。再度の修正ご容赦ください。(APIと本番環境との連携がうまくいかないため)

追記 同日19:30終了いたします。


影響は通常サーバー・有料専用サーバー両方となります。
急な予告となってしまい申し訳ございません。

なお取得に影響がありますため月額料金をお支払いいただいているご利用者様におきましては期待通りの結果が出なかったという場合を考慮し、翌月2024年5月末日までご利用停止の際、1か月分の返金請求を理由不問で承ります。

バージョンアップの一つに関しましては、現時点では問題ないですが、今後運用していくにあたって弊社のシステムに影響が起こるかもしれない脆弱性を含みうると考えられる部分があったためです。
予防措置となりますので影響はアップデート以外ございません。

この変更は技術的にはパラメータ1つの変更ですが、
別途事前に無関係な理由で準備しておりましたアップデートに適しておりましたため、そちらも適用いたします。ご要望に関しましては取り入れたものや代替となるものを用意したつもりです。

  1. 取得とその内容に大きな影響があります。
    • 高速化します。
    • 取得中にページを閉じても取得は継続されます。
    • 魚拓を取れるページと取れないページが異なる可能性があります。弊社テストでは現時点で、レンダリングまで到達でき、サイズも時間もオーバーしていずに保存が失敗するページは確認できていません。しかしあくまで試験的なものであるため、問題は出ると思われます。今後ともご意見お願いいたします。
    • HTMLのコンテンツの一部の取れるコンテンツと取れないコンテンツが変わります。特にHTMLElementの背景画像の類は取得ができない場合があります。改善予定です。
    • 画像はほとんどがAVIF(クオリティ60)に変換されます。200×400のエレメントで2000×4000等の画像をpng(クオリティ100)で表示するといったふるまいをするページが増えてきました。これは保存にも表示がかなり厳しいためです。ご容赦ください。なお、AVIFはすべてのモダンブラウザで対応が完了しております。取得の画像が表示されない場合、ブラウザのアップデートをご検討下さい。
  2. 調整中となりますが、取得制限が30回に減ります
    • 取得ミスの減少、コンテンツの肥大化がございます
  3. 試験的な機能としてSHA-256を表示します
    • 補足1 : 単一ファイルにまとめる時以前の保存方法の場合、documentcontentのみSHA-256になるため、期待した値にはなりません。
    • 補足2:これはWeb上のWARC形式等では少し実現が難しい機能と考えられます
  4. 「私はロボットではありません」による精度の向上により、robotの制限を終了します。
    • 主にno-archive等の制限です
  5. 削除に対するカウンタークレームの手続きと、削除済みの魚拓を資料請求をQAに明記します。
  6. その他、バグの修正、URL10000文字まで対応、タイトルの絵文字対応等の機能追加がございます。

以上どうぞよろしくお願いいたします。

ウェブ魚拓のロボット判定を変更しました

ウェブ魚拓をご利用いただき、ありがとうございます。
ロボット判定をCloudflare Turnstileに変更いたしました。理由は3点ございます。

・以前使っていたサービスの有料化が近い
・画像認証といった煩わしいものが減る
・昨年後半にCloudflare自体もすべて置き換えたとのことで、安定リリースと考えられるため

問題の発見やご意見ございましたら、ぜひお問い合わせくださいませ。
以上どうぞよろしくお願いいたします。


ウェブ魚拓における障害につきまして

ウェブ魚拓をご利用いただきありがとうございます。
本日9時頃まで502エラーが発生する障害が発生しておりました。

取得が集中すると発生することを確認しており、
現在対策を開発中ですが、もうしばらく対策の適用までお時間いただくことご了承ください。

なお有料用サーバーにおきましては問題は発生しておりませんでした。

お手数をおかけいたしまして申し訳ございません。
以上どうぞよろしくお願いいたします。

x.com取得時のダイアログを非表示に変更しました


ウェブ魚拓は表示に必要なHTMLソースへの変更は可能な限り避けるようになっておりますが、タイトルの通りx.comのURLを指定したときダイアログが出てしまったと考えられる場合も、表示しないよう変更しました。これはtwitter.comと同様の処理となります。


以上どうぞよろしくお願いいたします。

ウェブ魚拓に起きておりました閲覧障害につきまして

ウェブ魚拓をご利用いただき、ありがとうございます。
本日8月3日、502 bad gatewayの状態が続いておりました。
現在は復旧しております。
大変ご迷惑をおかけいたしましたことお詫びいたします。

なお、有料専用サーバーには影響はございませんことを確認しております。

以上どうぞよろしくお願いいたします。

ウェブ魚拓のブロック判定の変更につきまして

平素よりウェブ魚拓をご利用いただきありがとうございます。
ウェブ魚拓はrobots.txtによるロボット禁止、あるいはメタタグによるnoindexとnoarchiveどちらかが指定されていた場合取得を禁止としておりましたが、
この度、robots.txtの内容とメタタグのnoindexによる判定を廃止し、メタタグのnoarchiveのみを取得の禁止とすることとしました。

robots.txtの方針につきましてはもともと「私はロボットではありません」いう判定をウェブ魚拓に追加したことで修正する予定でした。
また、メタタグのno~のindexとarchiveは単語の通り意味合いが異なり、
noindexを廃止する計画はありましたが、認知がある程度進んでから行うこととしておりました。
特に昨今のSNSは政治含む公的な意見発信の場としての性質が強くなっている背景があり、この度修正が急務と感じました。なお、noarchiveも今後どうしていくか検討をし、現時点の判断からまた変更となるかもしれません。


以上どうぞよろしくお願いいたします。