Generated with sparks and insights from 6 sources

img6

img7

img8

img9

img10

img11

Introduction

  • Difyは、ウェブクローリングを通じて情報を収集し、RAG(Retrieval-Augmented Generation)技術を用いてAIアプリを構築するためのツールです。

  • FireCrawlというサービスを使用して、ウェブサイト全体の情報を効率的に収集し、Markdown形式に変換します。

  • FireCrawlの設定には、APIキーの取得と設定、クロールするURLの指定、クロールの深さや除外パスの設定などが含まれます。

  • Difyのバージョン0.6.11以降では、FireCrawlとの連携が可能になり、ウェブからのスクレイピング情報を知識ベースとして利用できます。

  • FireCrawlの設定項目には、Crawl sub-pages、Limit、Exclude pathsInclude only paths、Max Depth、Extract only main contentなどがあります。

FireCrawlの概要 [1]

  • FireCrawlは、ウェブサイトをクローリングし、LLM(Large Language Model)で処理しやすいMarkdown形式に変換するAPIサービスです。

  • ウェブサイト全体の情報を効率的に収集できるため、Difyの知識ベース構築に最適です。

  • FireCrawlは、特定のURLを入力すると、そのURLからサイト内をクロールし、内容をベクトルDBに格納します。

  • FireCrawlの設定には、APIキーの取得と設定が必要です。

  • FireCrawlは、SaaS版とOSS版があり、SaaS版は無料で500回のリクエスト制限がありますが、OSS版は無制限でリクエストが可能です。

img6

FireCrawlの設定方法 [1]

  • FireCrawlを使用するには、まずAPIキーを取得し、設定画面に貼り付けて保存します。

  • APIキーの取得は、FireCrawlのアカウントを作成し、右上の「Account」から行います。

  • FireCrawlの設定画面では、クロールするURLを指定し、オプションでクロールの深さや除外パスなどを設定します。

  • FireCrawlの設定項目には、Crawl sub-pages、Limit、Exclude paths、Include only paths、Max Depth、Extract only main contentなどがあります。

  • 設定が完了したら、Runをクリックしてクローリングを開始します。

img6

img7

クロールの設定項目 [1]

  • Crawl sub-pages: 配下のサブページもクロールするかどうかを指定します。

  • Limit: クロールするページの最大数を指定します(デフォルトは10)。

  • Exclude paths: クロールしないパスを指定します(例: blog/, about/)。

  • Include only paths: クロールするパスを指定します(例: articles/*)。

  • Max Depth: クロールの深さを指定します。深さはURLの階層で表現され、入力したURLを起点として相対的に指定します。

  • Extract only main content: メインコンテンツのみを抽出するかどうかを指定します(ヘッダー、ナビゲーション、フッターなどを除外)。

DifyとFireCrawlの連携 [2]

  • Difyのバージョン0.6.11以降では、FireCrawlとの連携が可能になりました。

  • FireCrawlを使用することで、ウェブからのスクレイピング情報を知識ベースとして利用できます。

  • FireCrawlの設定には、APIキーの取得と設定、クロールするURLの指定、クロールの深さや除外パスの設定などが含まれます。

  • FireCrawlは、特定のURLを入力すると、そのURLからサイト内をクロールし、内容をベクトルDBに格納します。

  • FireCrawlの設定項目には、Crawl sub-pages、Limit、Exclude paths、Include only paths、Max Depth、Extract only main contentなどがあります。

知識ベースの構築

  • Difyの知識ベース構築には、FireCrawlを使用してウェブサイトから情報を収集し、Markdown形式に変換します。

  • FireCrawlの設定には、APIキーの取得と設定、クロールするURLの指定、クロールの深さや除外パスの設定などが含まれます。

  • クロールの設定項目には、Crawl sub-pages、Limit、Exclude paths、Include only paths、Max Depth、Extract only main contentなどがあります。

  • 知識ベースの構築には、Difyの「ナレッジ」画面から「データソース」を選択し、FireCrawlを設定します。

  • FireCrawlを使用することで、ウェブからのスクレイピング情報を効率的に収集し、知識ベースとして利用できます。

img6

Related Videos

<br><br>

<div class="-md-ext-youtube-widget"> { "title": "Dify\u3067\u4f7f\u3048\u308b\u7d44\u307f\u8fbc\u307f\u30c4\u30fc\u30eb\u5168\u7a2e\u985e\u3092\u30c1\u30a7\u30c3\u30af\uff06\u8003\u5bdf\u3057\u3066\u307f\u305f", "link": "https://www.youtube.com/watch?v=gekyVsRyyb8", "channel": { "name": ""}, "published_date": "May 6, 2024", "length": "" }</div>

<div class="-md-ext-youtube-widget"> { "title": "\u3010Dify\u306e\u4f7f\u3044\u65b9\u3011\u521d\u5fc3\u8005\u3067\u3082\u3053\u308c\u898b\u308c\u3070\u51fa\u6765\u308b\u3010Docker\u5c0e\u5165 ...", "link": "https://www.youtube.com/watch?v=qnDkTJ-WV8c", "channel": { "name": ""}, "published_date": "May 9, 2024", "length": "" }</div>

<div class="-md-ext-youtube-widget"> { "title": "Is Dify the easiest way to build AI Applications?", "link": "https://www.youtube.com/watch?v=yXAJwDtAbLo", "channel": { "name": ""}, "published_date": "2 weeks ago", "length": "" }</div>