愛車:マツダアテンザ
Webを中心とした、ビジネス&テクノロジーに関する思いつき
by F-shin
[ このサイトについて ] [ F-shinについて ] [ トップ ]
iPhoneアプリ
author:えふしん
photo_20.jpg
藤川真一について


初代モバツイ開発者
想創社再創業 / KMD博士課程
著書〜100万人から教わったウェブサービスの極意―「モバツイ」開発1268日の知恵と視点 [Kindle版]
お求めやすい夏休み特価!
このカテゴリ[Web系]の最新30件
本ブログは移転しました インターネットの遊び方を身につけよう ネットでの選挙活動と投票率 Web2.0がうまくいかなかったワケ WebにおけるMVCアーキテクチャの勃興と変遷 何故、PCはブラウザ、スマホはアプリなのか。 言っとくけどスマホは退化でもあるからな。 アイコン5000円とか、Web受注(発注)価格について。 残念なWeb論の骨子 HTMLってホントよく出来てるな。 「やまもといちろう×イケダハヤト対談イベント」のログを読んで ネットサービスの成功者は「とりあえず受託」という言葉使うのやめません? 全収集型RSSリーダーの終焉とソーシャル化するWeb 頑張ると報われるプログラマーの社会とは。 Perlが○○な話 アメリカ製品のすごさと不思議とワイヤフレーム どの人件費を考えても絶対にお得!利用規約ナイトがきっかけの本が出ます。 クラウドやモバイルを、もっと仕事で活用したいけど、どうやって会社を説得したら良いかわからない! スマホアプリらしいUXとは。 インターネットの変化に対して起こるモヤモヤすることを考え、整理する活動 Facebookは見なくてもいい情報が出てくるSNS 「あなたは影響力があるから、そんなことを言っちゃいけません」の問題点 Facebookに時間を取られすぎる対策 Paypalの本人確認がむかつく件 ネット系イベントがとても主催しやすくなった件 モバイルファーストが失敗なハズはないが、今はまだ時期尚早 やりがいはソートできない…非情なデータベース社会 2012年までのふりかえりと2013年へ ブラウザという平面の限界 ブログ記事の流通の難しさ
[このカテゴリをもっと見る]
Powered by
Movable Type

February 17, 2009

スポンサーリンク

何故か障害は出社中に集中する。

会社のエレベーター待ちでモバツイにアクセスすると、いつもと違うエラーメッセージ。

家にいる奥さんに画面を見てもらうと、「execption EMASK」のような文字が出てるとのこと。このキーワードで検索すると、あのHDD突然死のニュースが。

Seagate Barracuda 7200.11のファームウェア問題:ぴろにっき:So-net blog

例の突然死なのかなー。でも、おいらのDBのHDDは、「ST3160815AS」だよ。

「7200.11」じゃなくて、「7200.10」の方。

だからあのニュースが出たときも安心してたんだ。

なお、Webサーバも同じ機種。スペアHDDがあるからわざわざ同じ機種を買った。

こっちも死ぬのか?

現在はモバツイや、このblogのシステムであるMovableTypeのDBも、レプリケーション先のバックアップサーバの方に接続するように変更したからとりあえずサービスは動いてる。

でも、バックアップサーバ(PowerEdge 430C / celeron 2.5GHz)は、今のモバツイのアクセス数には非力でメインのDBサーバと同じぐらい負荷をかけるとCPU使用率がほぼ100%に張り付いてて、サービスに影響が出ていたので、いくばくかのサービスや機能を止めているのが今の状況。

ということで、この状況は長く続けたくないので、帰りにHGSTあたりのHDDを2台ばかし買って帰るしかないかなぁ…。

ファームウエアのアップデートで直ったらうれしいし、Linuxの場合はRAIDが片方死んだだけでOSが落ちるケースもあるそうなので、もしかしたらスペアをつければ直るのかもしれないけど、何も買わずに家に帰って、一晩失うのはもったいない。


今回は年末作業でレプリケーション環境をちゃんと作っておいたのが功を奏し、1hも止まらずにサービスを復旧させてるけど、現状、うちのサーバ環境で、これが止まるとヤバイと言うあたりを自分のためにメモしておく。


1.SSHの接続先サーバが止まったら何もできなくなる。

⇒接続サーバを冗長化しておくべき。NATの設定が変えられないと、フロントのサーバが死んだらにっちもさっちもいかなくなる。
⇒TODO

シリコンディスクによるLinuxマシン欲しいし、どこでもLAN(VPN)経由でWindows環境を常時接続可能にしておくのでも良いかも。

2.DNSサーバが止まったら家の中から障害の切り分けができない。

⇒DNSサーバは分離したいなぁ。DNSが止まると電話越しに何も確認できん。

3.ハブ故障やLANケーブル切断、ルーターが止まったら障害切り分け不可

⇒これはしょうがない。家に帰るまでサービス停止。
先日、実際にハブが壊れて家に帰った。(今日も早退したいよ)

4.Apacheのサーバが止まったらバックアップサーバのapacheに切り替える。
ただしファイル古い。

⇒家にあるMacBookProを組み合わせれば復旧可能だが、普段からちゃんとrsyncしておくべき。
⇒TODO

5.DBサーバが止まったら、バックアップサーバで稼動可能

⇒イマココ

6.バックアップサーバが壊れたら、何個かの機能は止まるが全体に影響なし。

⇒直す。

7.メールサーバが止まると悲しい。

⇒エラーメールが戻る分なら死ぬほど困るわけではない。
普段からフッターにセカンドアドレスを書いておくと良いのかも。⇒TODO

8.ハード構成を外部にメモしておくこと。

出勤中に壊れて何を買って帰ればいいかがわからなくなるケースがありそう
⇒TODO


正直言って、こんな日は仕事にならん!


------------------
追記:
画面上のエラーメッセージを写真で送ってもらった。

HDD(sdc1)のエラーみたいですね。sdc1って、多分、RAIDの片翼だよなぁ・・・。
とりあえず何も買わずに家に帰ってみようかな。

------------------
追記2:
結局、ただのRAIDの片方のHDDが死んだだけというオチでした。

写真を送ってもらって原因が見えていたので、鳥料理屋さんで親子丼を食べて家に帰ってスペアのHDDでRAIDを復旧させ、さきほど2時のバッチが終わったのを見計らってモバツイの緊急メンテを入れる形で、バックアップの更新分をマスターに反映して復旧しました。

RAID1の一台が壊れただけでOSが止まるなんてのは、Windowsなどでは考えられない現象ですが、Linuxだとそういう事もあるみたいです。別に全部のLinuxが落ちるわけではないので、結局、RAIDのチップやらドライバに依存するのでしょうか?!

ソレよりも驚いたのはDBサーバに使っていたHDDは、思っていたHDDと違っていたこと。160GBのドライブかと思ったら、120GBの「7200.7」の世代のシーゲートのHDDでした。こりゃただのHDDの寿命だったかも。ということで、きっと、残り一台のドライブも先行き長くないと思うので、割と最新めの500GBプラッタのHDDを2台注文しました。RAIDは台数を買うので単価が安いことは重要ですね。


Seagate ST3500410AS 500Gプラッタモデル! 500GB SATA接続3.5型内蔵ハードディスク
特価 5,280円


[24時間365日] サーバ/インフラを支える技術 ~スケーラビリティ、ハイパフォーマンス、省力運用 (WEB+DB PRESS plusシリーズ) (WEB+DB PRESSプラスシリーズ)
安井 真伸 横川 和哉 ひろせ まさあき 伊藤 直也 田中 慎司 勝見 祐己
技術評論社
売り上げランキング: 1178
おすすめ度の平均: 5.0
4 細かいtipsは役に立つが…HAの基本は先に知っている必要がある
5 おもしろい!
5 是非読むべき
5 Webサイト運営に携わるエンジニア必読


関連:
F's Garage:モバ ツイッター(mova twitter)のWebサーバをDellからHP ML115G5に入れ替えた。

F's Garage:予算5万円でモバツイッター用MySQLサーバを追加

スポンサーリンク
■同じカテゴリ[Web系]のエントリー
<<前の記事 ツイッターは最強の「ながらコミュニティ」
>>次の記事 検索したいものと現状の技術の限界点
■このblogの書き込み最新3件
本ブログは移転しました インターネットの遊び方を身につけよう トトロが陽なら、『風立ちぬ』は陰?〜『風立ちぬ』の感想
この記事への提案、提言一覧
この記事への提案、提言









あなたの情報を保存しますか?