Webページから本文らしき部分を抽出する

さまざまなパターンの日本語文章をデータとして欲しいケースがあったので、指定したURLから本文らしき内容を抽出するスクリプトを書いた。

require 'playwright'
require 'readability'
require 'html2text'
 
# 指定したURLから本文らしき内容を抽出して返却する
def html2text(url)
  Playwright.create(playwright_cli_executable_path: 'npx playwright') do |playwright|
    playwright.chromium.launch(headless: true) do |browser|
      begin
        page = browser.new_page
        page.goto(url, waitUntil: 'load') 
        doc = Readability::Document.new(page.content)
        sleep 1
        return {:title => page.title, :content => Html2Text.convert(doc.content) }
	  rescue
        return {:title => nil, :content => nil }
      end
    end
  end
end
 
url = ARGV.shift
doc = html2text(url)
puts "#{doc[:title]}\n#{doc[:content]}"

Javascriptでコンテンツを生成するページに対応するためPlaywrightを使用。

🪴 namaraii.com

Explorer

Webページから本文らしき部分を抽出する

使用したライブラリ

Kindleの蔵書一覧を生成するRubyスクリプト

Appleのヘルスケアデータから体重を抜き出してCSVファイルを作成する

Platypus - RubyスクリプトをMac OSのアプリに変換できるツール

bundlerメモ

RubyでFront matterをパースする

Rubyのワンライナー

OAuthでアクセストークンを取得するスクリプト

Webページから本文らしき部分を抽出する

最近更新したページ

芦ノ湖スカイラインから三国峠へ

フォトログ

津久井湖城山公園までドライブ

ROG Ally X

🏠 Home

🪴 namaraii.com

Explorer

Webページから本文らしき部分を抽出する

使用したライブラリ

関連リンク

RubyからBlueskyへの投稿

Ruby

Pocketに保存したページを読み上げてPodcastとして配信

Mastodon API gemを使ってTootする

画像ファイルをまとめてリサイズする

タグリンク

#ruby

Kindleの蔵書一覧を生成するRubyスクリプト

Appleのヘルスケアデータから体重を抜き出してCSVファイルを作成する

Platypus - RubyスクリプトをMac OSのアプリに変換できるツール

bundlerメモ

RubyでFront matterをパースする

Rubyのワンライナー

OAuthでアクセストークンを取得するスクリプト

Webページから本文らしき部分を抽出する

最近更新したページ

芦ノ湖スカイラインから三国峠へ

フォトログ

津久井湖城山公園までドライブ

ROG Ally X

🏠 Home