MurMur(ムルムル)— オーディオブリッジ/文字起こし/翻訳
MurMur(ムルムル)は、システム音声をリアルタイムでルーティング・文字起こし・英語翻訳・録音 できる軽量デスクトップアプリです。クラウドに依存せず、すべてローカルで処理されます。
シンプルな2ペインのUIで、音声入力を自動的に認識し、ほぼリアルタイムでテキストとして表示します。オプションで同時に英語翻訳も生成できます。
さらに、BlackHole やLoopback などの仮想デバイスを利用してデスクトップ音声を自在にルーティングし、バーチャルゲイン で音量を調整し、録音をMP3として直接書き出すことが可能です。ユニークな活用例として、Shazam for Mac と組み合わせることで、PC上で再生している楽曲を周囲の雑音なしで正確に特定できます。
すべての処理はローカルで実行されるため、データの安全性 と低遅延 を両立します。
SRT Translator は、.srt 字幕を正確に翻訳するための GUI と CLI を備えたデスクトップツールです。
対応エンジンは3種類です。NLLB(Meta「No Language Left Behind」)は動作要件が低く品質は堅実。SeamlessM4T(Meta)は中程度のリソースでより高品質。さらに、Ollama 経由のローカルLLMを使う実験的モードもあり、最高レベルの品質を狙えますが、必要なハードウェア要件も最も高くなります。
Ollama モードを使うには、Ollama をインストールしてサービスを起動しておく必要があります。上級ユーザーは Python ファイル内のプロンプトを直接調整できます。
(NLLB: arXiv 2207.04672 ;SeamlessM4T: arXiv 2308.11596 ;Ollama: 公式リポジトリ )
このデスクトップツールを使えば、YouTube動画を数クリックで自動的に文字起こし・要約し、さまざまな言語に翻訳できます。すべてローカルで処理され、プライバシーも守られます。主な機能は以下の通りです。
素早く内容把握: 動画の内容をAIが自動で解析・文字起こしし、分かりやすく要約します。
柔軟な翻訳: 重要な情報がすぐに自分の言語や希望する言語で確認できます。
知識アーカイブ: 文字起こしや翻訳された要約文はメタデータ・音声・テキストと共に検索可能なデータベース(SQLite)として保存されます。
ローカル処理: クラウドを使わず、データ送信やユーザー登録も不要。自分のデータを完全にコントロールできます。
効率的なワークフロー: 調査やメモ、引用集、または動画から得た知識を長期保存したい場合に最適です。
このツールはAIによる自動化と使いやすいインターフェースを融合し、YouTube動画から効率的に情報を抽出・整理したい方に大きな価値を提供します。
無限の音 は、Stable Audioを使用してテキスト入力に基づいて任意の音を生成する無限音楽生成ツールです。このアプリケーションは、キーワードの入力、音量の制御、録音の管理のためのミニマリストなユーザーインターフェースを提供します。オーディオスニペットは常に生成され、クロスフェードで重ね合わされ、「録音」モードを有効にすることでローカルに保存されます。
技術的には、このプログラムはPyTorch、Stable Audio Tools、PyWebViewに基づいており、CPUおよびGPUアクセラレーション(CUDA/MPS)をサポートしています。生成に必要なAIモデルは、初回起動時にHugging Faceからダウンロードされ、無料のアクセスとAPIトークンが必要です。
SD 3Dモデルジェネレーターは、シンプルなテキスト入力と完全に作成された3Dアセットの間のギャップを埋める革新的なクリエイティブツールです。従来のStable Diffusion(SD)フロントエンドとは異なり、このアプリケーションは、先進的な大規模言語モデル(LLM)の統合により、全体のワークフローを加速します:プロンプトが自動的に最適化され、 シームレスな(テーマに適した)環境マップが生成され、オブジェクトやキャラクターの画像が生成され、高品質の3Dモデルに変換されます – すべてが直感的なインターフェース内で行われ、画像と3Dモデルを環境マップと共に表示できます。
このツールの特徴は何ですか?
プロンプトからアセットへ、エンドツーエンド: オブジェクト名やコンセプトを入力するだけで – システムがプロセスを案内し、LLMを使用してStable Diffusionのプロンプトを最適化し、スタイルの一貫性、クリエイティブな詳細、最適なフォーマットを確保します。
簡素化された3Dワークフロー: 生成された画像は、ワンクリックで3Dモデル(GLB)に変換できます。各アセットには、Blenderやゲームエンジンで直接使用できる個別のパノラマ環境(HDRI)を生成できます。
プロンプトの経験は不要: バックエンドのLLMが粗いアイデアを自動的にプロフェッショナルで詳細なプロンプトに変換します – これにより、時間を節約し、クリエイティブな負担を軽減します。
統合されたギャラリー&バッチ生成: 広範な画像とモデルのコレクションを、バッチ制御、ページナビゲーション、比較ビューを通じて効率的に管理できます。
機能とユーザーエクスペリエンス
簡単な入力、プロフェッショナルな結果: シンプルなオブジェクトタイトル(「ローポリ農夫」)で十分です – システムはLLMを利用してStable Diffusionのプロンプトを自動的に最適化し、常に最高の画像品質、構図、明瞭さを提供します。
リアルタイムストリーミング: LLMと画像生成の結果がインターフェースにライブでストリーミングされます – 透明性と迅速なフィードバックのために。
直感的なギャラリー: 2D画像と3Dモデル用の別々のタブベースのギャラリー – アセットを比較したり、バッチで管理したり、直接編集したりできます。コンテキストメニューにより、即時エクスポート、生成結果の再利用、または直接モデル/HDRIの作成が可能です。
自動3Dモデル作成: 生成された画像は、UIを介して直接3D GLBモデルに変換できます(外部ツール/スクリプトを通じて、柔軟に構成可能)。
自動環境マップ作成: 各モデルに対してカスタマイズされた、等方的HDRI環境を生成できます:LLMがまず適切な環境を説明し、その後SDが照明と反射のためのフォトリアリスティックなパノラマを生成します。
バッチ制御&プレースホルダー: バッチ画像生成、プレースホルダー管理、わかりやすい再生成をサポート – 現在の進捗を常に追跡可能にします。
ワンクリックエクスポートからBlenderへ: モデルとHDRIは、アプリケーションから直接Blenderで開いて編集できます。
技術的概要
フロントエンド:
純粋なHTML/CSS/JavaScript、PyWebviewを介してシームレスに統合され、Pythonバックエンドへの直接アクセスを提供します。
ギャラリー、タブ、コンテキストメニュー用の動的でレスポンシブなUIロジック。
LLM出力と画像生成ステータスのライブストリーミングをPython–JSブリッジを介して実現。
バックエンド:
PyWebviewとFastAPIに似たインターフェースに基づくPythonバックエンド。
自動プロンプト最適化と要約のためのOllamaまたはローカルLLMサーバーの統合(例:Mistral)。
Stable Diffusion(diffusersライブラリ)を介した画像生成、すべてのパラメータ(モデル、VAE、サンプラーなど)はユーザー側で構成可能または自動的に設定されます。
画像を3D(GLB)に変換し、HDRIパノラマを作成するための外部ツール/スクリプトはモジュール式で簡単に交換可能です。
自動ファイル管理、メタデータの埋め込み(PNGおよびサイドカー内のJSON)およびギャラリー内のライブ更新のためのアセットフォルダーの監視。
拡張性:
すべてのバックエンドプロセスは分離されており、スクリプト可能です:3D変換やHDRI作成は独自のパイプラインに簡単に置き換えることができます。
異なるLLM、SDモデル、または3Dワークフローに簡単に適応可能です。
SD 3Dモデルジェネレーターは、アイデアから完成したアセットへの道を根本的に簡素化します。LLM、Stable Diffusion、そして自動化された3Dワークフローを結びつけることで、アーティスト、デザイナー、開発者は高品質のビジュアルをより迅速、柔軟、創造的に生成、管理、再利用できます。
オートギット は、Gitリポジトリを自動的に監視・管理し、LLMを使用してコミットメッセージやドキュメント/READMEを作成するクロスプラットフォームのElectronアプリです。
監視と自動コミット
– 任意のフォルダをGitリポジトリとして追加: オートギットは必要に応じて初期Gitセットアップを行います。
– リアルタイムファイル監視(Chokidar): ファイルが変更されると、変更がデバウンス間隔で検出され、自動的にGitにコミットされます。
– インテリジェントなコミットメッセージ: 定義された行数または時間の閾値に達すると、オートギットはすべての新しいコミットを集め、その差分からOllama-LLM(qwen2.5-Coder)用のプロンプト最適化された入力を作成し、標準のコミットメッセージを意味的に簡潔な要約に置き換えます。
README生成とリポジトリ説明
– ボタン一つでまたは初回追加時: オートギットは関連するコードファイル(サイズ、関連スコア、.gitignoreルールに基づく)を抽出し、それをLLMプロンプトに供給して自動的に完全で良く構造化されたREADME.mdを作成または更新します。
– LLM支援の短い説明(≤ 255文字): 各フォルダに対して、オートギットは同じOllamaバックエンドを使用して数秒で一行のプロジェクト説明テキストを生成できます。
堅牢なフォルダ管理
– 欠落または移動したフォルダは自動的に検出され(「移動が必要」)、サイドバーアイコンをクリックすることで新しいパスを割り当て、元のGit状態を復元できます(コミットハッシュによる確認)。
– 簡単なドラッグ&ドロップサポート: フォルダをドラッグしてアプリに直接引き込み、すぐにGitリポジトリを初期化し、監視を開始します。
– .gitignore管理: 一般的な一時的/IDE/ビルドファイルは自動的に検出され(Micromatch + 事前定義されたパターン)、必要に応じて.gitignoreに追加されます。
Gitea統合とプッシュワークフロー
– 設定で個人のGitea APIトークンを保存できます。
– 「Giteaにプッシュ」をクリックすると、オートギットはリモートリポジトリが既に存在するかどうかを確認します:
存在しない → リポジトリを作成(LLM生成の短い説明付き)。
存在する → 現在の説明をPATCHで更新します。
– その後、ローカルリモートオリジンが再構成され、現在のブランチとタグが自動的にプッシュされます。
デスクトップUIと操作性
– ElectronとTailwindCSS : サイドバー(監視されているすべてのフォルダのフィルタリングリスト)、中央コンテンツエリア(すべてのコミットをページネーション表示、差分ビュー、スナップショットエクスポート、「ここにジャンプ」チェックアウトを含む)を持つレスポンシブインターフェース。
– スカイモード : 自動的な時間依存の背景(昼は柔らかい青、夜は暗い青)。
– トレイメニューとトレイアイコン : アプリがトレイに最小化され、トレイアイコンを右クリックすると、フォルダごとの監視の開始/停止、フォルダの追加/削除、「終了」が迅速に行えます。
– 設定ダイアログ :
> スカイテーマのオン/オフ
> 「トレイに閉じる」: アプリを実際に終了するのではなく、閉じるとウィンドウを隠します
> 自動起動の動作
> インテリジェントなコミット閾値(行数と分数)
> 使用するOllamaモデルの選択(コミット対README)
> Gitea APIトークンを保存
– ゲーミフィケーションとライブ統計 : コミットのための日次カウンター、色分けされた視覚化(「今日のコミット」)、次の自動LLMコミットまでのライブカウントダウン。
テクノロジースタック
– フロントエンド : Electron + HTML/CSS + TailwindCSS + 自作のミニマルアニメーション「アニメキャット」(クライアントサイドのキャットストリーミングLLM応答時)。
– バックエンド/Node :
> chokidarによるファイル監視
> simple-gitによるすべてのGit操作(初期化、ステータス、コミット、差分、リベース、プッシュ、リモート設定)
> micromatchとignoreによるファイル/フォルダのフィルタリング
> electron-storeによるすべての設定の永続化(Giteaトークン、スカイモード、閾値、モデル選択を含む)
> 自作のLLM統合: Ollamaサーバーの開始/停止、fetch(…).getReader()による並行ストリーム処理。
> トレイ/メニュー統合: ネイティブElectronメニューとサイドバー/ツリービューのコンテキストメニュー。
すべての機能 – 継続的な自動コミットの作成からGiteaへの完全自動プッシュおよびリポジトリ設定まで – は、開発者の日常を楽にするために設計されています: コードに集中し続ける一方で、オートギットはバックグラウンドでコミット履歴、ドキュメント、リモートリポジトリを常に最新の状態に保ちます。
2015年から2019年まで、ザールブリュッケンのザール美術大学での学びの中で、人工知能、バーチャルヒューマノイド、人間と機械の相互作用、そしてそれに伴う哲学的および文化的な問題に深く取り組みました。この過程で、私は理論的にも実践的にも、AI技術との関わりにおける限界や誤解について考察しました。
私の学士論文「人工知能と実際の知能の比較」(2017年、最終成績1.0)では、デジタルアバターが遺伝的アルゴリズムを用いて学習プロセスをシミュレートする方法を探求し、これを人間のパフォーマーの実際の学習や痛みの経験と比較しました。パフォーマンス「Learning」では、デジタルキャラクターの空間表現に光学的なペッパーズゴースト効果を使用しました。その結果は、技術的なシミュレーションと人間の体験との間に明確な感情的隔たりがあることを示しました。
修士論文では、このアプローチをさらに発展させ、バーチャルキャラクターの認識と演出、そしてそれらが人間とどのように相互作用するかに深く取り組みました。その中で、以下のプロジェクトが生まれました:
Gerkzeuk (2016) : 自律的にインターネットから画像をダウンロードし、変更し、販売するコンピュータ制御のオブジェクト。このオブジェクトは、著作権、機械倫理、アーティストの役割に関する基本的な問いを提起しました。ホログラフィックな表現(「アイリス」)を通じて、機械的なアーティストは人間のようなペルソナを持ちました。プロジェクトページへのリンク
Pepper’s Ghostクリスタル (2016年以降) : バーチャルヒューマノイドをホログラフィックに表示し、顔認識、感情分析、音声認識ソフトウェアを備えたインタラクティブなショーケース。この作品は、人工的および人間的な相互作用を具体化することに深く取り組みました。プロジェクトページへのリンク
人工知能と実際の知能の比較 (2017) : デジタルキャラクターが遺伝的アルゴリズムを用いて人間のパフォーマーと並行して基本的な運動能力を学ぼうとするパフォーマンス。この作品は、デジタルシミュレーションと人間の体験との間の違いや感情的な次元を明らかにします。プロジェクトページへのリンク
アンチアート (2019) : 予測不可能なインパルスによって制御されるマリオネットを用いた意図的にシンプルな装置で、AI技術に対する過剰評価とその周囲のハイプをユーモラスかつ批判的に反映しています。プロジェクトページへのリンク
修士展のための空間インスタレーション (2019) : シナリオ的な状況の中で、訪問者が自動的に撮影され、その顔が投影されることで、自己認識、プライバシー、エコーチャンバーといったテーマを具体化しました。プロジェクトページへのリンク
これらのプロジェクトは、デザインにおける透明性、ブラックボックス問題、偶然性と決定論的システム、そしてAIの倫理的および哲学的次元に関する理論的な考察に伴って進められました。フリーダー・ナケ、アンドリュー・グラスナー、リチャード・デイヴィッド・プレヒトなどの参考文献に触発され、私は人工知能、人工生命、意識に関する用語や誤解について批判的に考察しました。
私の芸術的研究から得られた中心的な知見は以下の通りです:
AI技術は人間の行動を模倣することはできますが、真の感情的深さや本物の共感を生み出すことはありません。機械が生み出す人間の相互作用の幻想は、その影響において常に表面的なレベルに留まります。
生物学や神経科学からの比喩的な用語(「ニューラルネット」や「知能」など)の技術における悪用は、誤解や技術的可能性の神話的な過大評価に大きく寄与しています。
透明性デザインの導入と技術プロセスの開示は、恐怖を軽減し、現代技術に対する批判的思考を促進するために不可欠です。
技術システムにおける偶然性や予測不可能性は、しばしば魔法や自律性の認識を生み出し、技術的能力の過剰解釈を引き起こすことがあります。
AI技術やバーチャルキャラクターの文化的および社会的受容は、技術的なアーティファクトに人間の特性を見出そうとする心理的傾向に深く根ざした投影や幻想に強く影響されます。
ソフトウェアや機械の独立性が見えるように思えても、その責任は常にこれらのシステムを設計し、プログラムし、操作する人間にあります。機械やソフトウェアは常に道具であり、自立した主体にはなりません。
自律的で自己再生産的なプログラム(「フォークボム」など)に取り組むことで、「生命」の意味に新たな深みが生まれ、従来の生物学的定義に挑戦します。
心理的な観点から、科学者、IT技術者、アーティストの仕事には、人工的な存在を創造しようとする無意識の動機がしばしば見られ、これは心理学で議論される「子宮の嫉妬」に似ています。ここには、創造的に生命や生きたシステムを生み出したいという深い欲求が反映されています。
オブジェクト指向プログラミングは、バーチャルな世界を再構築する可能性を提供し、現実とシミュレーションの境界についての考察を促します。
2015年から2019年までの私の活動は、人間性、技術、そしてそれらの複雑な関係に対する多面的で批判的かつ革新的な取り組みを示しており、これらのテーマに関する公共の議論を確かなものにし、反映させることを目指しています。
プライバシーポリシー
クッキーが保存されました。名前は「lang」、サイズは6バイト、保存期間は3日間で、どの言語を希望するかを記憶するために技術的に必要です。優しくしてね!